cheap-llms-and-model-selection

安価なLLMとモデル選択

高性能モデルが唯一の選択肢ではなくなりつつある。用途を限れば、桁違いに安いモデルで足りることが多い。

二つの動き。(1) 特定領域（例：コード）に振った安価なモデルが登場し、最上位機の数分の一〜十数分の一のトークン単価で実用になる。安さの一部は対象を絞ったファインチューニングと、出力トークンの少なさから来る。(2) 複数モデルを統一エンドポイントで切り替える「APIルーター」が、フォールバックや無料枠を含め卸売りのように使える。

判断軸は「最高性能」ではなく「この用途に十分な最小コスト」。性能はスケーリング則で青天井に見えても、実際に支払うのは従量のトークンであり、その重さはLLM推論のメモリ律速から来る。

注入メモ：peri → perilm に注入（6/3→6/14 差分）。個人を特定しない範囲に一般化（丸め）済み。