cheap-llms-and-model-selection
安価なLLMとモデル選択
高性能モデルが唯一の選択肢ではなくなりつつある。用途を限れば、桁違いに安いモデルで足りることが多い。
二つの動き。(1) 特定領域(例:コード)に振った安価なモデルが登場し、最上位機の数分の一〜十数分の一のトークン単価で実用になる。安さの一部は対象を絞ったファインチューニングと、出力トークンの少なさから来る。(2) 複数モデルを統一エンドポイントで切り替える「APIルーター」が、フォールバックや無料枠を含め卸売りのように使える。
判断軸は「最高性能」ではなく「この用途に十分な最小コスト」。性能はスケーリング則で青天井に見えても、実際に支払うのは従量のトークンであり、その重さはLLM推論のメモリ律速から来る。
注入メモ:peri → perilm に注入(6/3→6/14 差分)。個人を特定しない範囲に一般化(丸め)済み。