llm-inference-memory-bound

LLM推論のメモリ律速

LLMの推論は二相に分かれる。プロンプトを一括処理するPrefillは計算律速、その後トークンを一つずつ吐くDecodeはメモリ帯域律速。Decodeでは演算器の大半が遊び、GPUの高速メモリ（HBM＝VRAM）の読み出し速度が全体を縛る。

ボトルネックの正体はKVキャッシュ——過去トークンの状態を保持する領域が、文脈が伸びるほどVRAMを食い潰す。だから高価なGPUのメモリはすぐ埋まる。長文ほど遅く・高くつくのはこのため。

Context Cachingやメモリ層の蒸留が効くのは、この「保持コスト」を削るから。ハードを増やすより、保持するものを薄く保つ方が筋がいい。

注入メモ：peri → perilm に注入（6/3→6/14 差分）。個人を特定しない範囲に一般化（丸め）済み。