Google Research、
AI 推論を高速化する圧縮技術「TurboQuant」発表
Google Research、大規模言語モデル (LLM) やベクトル検索を効率化する新圧縮アルゴリズム「TurboQuant」を開発。AI が推論時に使用する一時記憶 (KV キャッシュ) のボトルネックを解消し、精度を維持したままメモリ使用量を最大 6 分の 1 に削減する。同時に、ベクトル検索のインデックス構築速度も向上させる。
TurboQuant は PolarQuant による高品質圧縮と QJL による誤差補正を組み合わせ、理論的下限に近い効率を実現。エヌビディア製 H100 GPU での検証では、未圧縮状態と比較して最大 8 倍の高速化を達成。LongBench などの標準ベンチマークにおいても、精度を落とさず高いパフォーマンスを維持した。本研究は ICLR 2026 での発表が予定されている。
research.google
・Amir Zandieh, Vahab Mirrokni
論文:
arXiv:2504.19874