登入 直接訂購 教學視頻

谷歌發表KV快取壓縮技術 儲存需求料遭衝擊

大型語言模型一直面臨擴展性問題,隨着上下文視窗的增長,儲存鍵值(KV)快取所需的記憶體也會成比例增加,消耗圖像處理器(GPU)記憶體並降低推理速度。針對這種現象,美國谷歌公司(Google)推出三種壓縮演算法,包括TurboQuant、PolarQuant和量化Johnson-Lindenstrauss (QJL),這三種演算法旨在高效壓縮緩存,同時不降低模型輸出品質。

美股儲存板塊集體下挫

谷歌新壓縮技術引發市場對存儲需求前景的擔憂,受消息影響,記憶體生產商閃迪(Sandisk)周三股價一度滑落9.2%,美光(Micron)最多曾降低6.3%。

新型內存壓縮技術TurboQuant,能將大模型儲存鍵值暫存壓縮至3比特(bit),實現6倍內存縮減與最高8倍加速。

據悉,TurboQuant技術可以在不損失準確性的前提下,將大模型的快取記憶體佔用大幅減少,在輝達(NVIDIA) H100 GPU上,4比特TurboQuant在計算注意力邏輯值方面,比32比特未量化鍵快8倍。PolarQuant在「大海撈針」檢索任務中表現近乎無失真。

摩根士丹利分析指出,谷歌新壓縮技術僅作用於推理階段,並非硬件需求減少,反而可能透過降低部署成本,來啟動更多AI應用場景。

股票及指數資料由天滙財經有限公司,泓滙財經資訊有限公司及財經智珠網有限公司提供。外滙及黃金報價由路透社提供。