谷歌發表KV快取壓縮技術儲存需求料遭衝擊

今日0:33

大型語言模型一直面臨擴展性問題，隨着上下文視窗的增長，儲存鍵值(KV)快取所需的記憶體也會成比例增加，消耗圖像處理器(GPU)記憶體並降低推理速度。針對這種現象，美國谷歌公司(Google)推出三種壓縮演算法，包括TurboQuant、PolarQuant和量化Johnson-Lindenstrauss (QJL)，這三種演算法旨在高效壓縮緩存，同時不降低模型輸出品質。

美股儲存板塊集體下挫

谷歌新壓縮技術引發市場對存儲需求前景的擔憂，受消息影響，記憶體生產商閃迪(Sandisk)周三股價一度滑落9.2%，美光(Micron)最多曾降低6.3%。

新型內存壓縮技術TurboQuant，能將大模型儲存鍵值暫存壓縮至3比特(bit)，實現6倍內存縮減與最高8倍加速。

據悉，TurboQuant技術可以在不損失準確性的前提下，將大模型的快取記憶體佔用大幅減少，在輝達(NVIDIA) H100 GPU上，4比特TurboQuant在計算注意力邏輯值方面，比32比特未量化鍵快8倍。PolarQuant在「大海撈針」檢索任務中表現近乎無失真。

摩根士丹利分析指出，谷歌新壓縮技術僅作用於推理階段，並非硬件需求減少，反而可能透過降低部署成本，來啟動更多AI應用場景。

谷歌發表KV快取壓縮技術 儲存需求料遭衝擊

谷歌發表KV快取壓縮技術儲存需求料遭衝擊