記事一覧に戻る

大規模言語モデルのKVキャッシュ再利用を再計算なしで実現する「KV Packet」が提案される

arXiv cs.LG · 2026年4月16日

大規模言語モデルのKVキャッシュ再利用を再計算なしで実現する「KV Packet」が提案される

AI要約

  • Llama-3.1とQwen2.5での実験により、KV Packetは従来の再計算ベースの手法と比べてほぼゼロのFLOPsと低いTTFT遅延を実現
  • キャッシュされたドキュメントを変更不可の「パケット」として扱い、軽量なトレーニング可能なソフトトークンアダプターでラップする新しいアプローチ
  • 自己教師あり蒸留によってアダプターをトレーニングし、コンテキストの不連続性を橋渡しする仕組みを採用
  • CacheBlend、EPIC、SAM-KVなどの既存手法とは異なり、トークンの部分的な再計算を必要とせず計算オーバーヘッドを削減

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める