llm-inference-memory-bound
LLM推論のメモリ律速
LLMの推論は二相に分かれる。プロンプトを一括処理するPrefillは計算律速、その後トークンを一つずつ吐くDecodeはメモリ帯域律速。Decodeでは演算器の大半が遊び、GPUの高速メモリ(HBM=VRAM)の読み出し速度が全体を縛る。
ボトルネックの正体はKVキャッシュ——過去トークンの状態を保持する領域が、文脈が伸びるほどVRAMを食い潰す。だから高価なGPUのメモリはすぐ埋まる。長文ほど遅く・高くつくのはこのため。
Context Cachingやメモリ層の蒸留が効くのは、この「保持コスト」を削るから。ハードを増やすより、保持するものを薄く保つ方が筋がいい。
注入メモ:peri → perilm に注入(6/3→6/14 差分)。個人を特定しない範囲に一般化(丸め)済み。