登入 直接訂購 教學視頻

DeepSeek梁文鋒署名新論文 稱要開啟架構新篇章

內地AI初創DeepSeek(深度求索)在元旦日發布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構,旨在解決傳統超連接在大規模模型訓練中的不穩定性問題,同時保持其顯著的性能增益 。

簡單來說,DeepSeek提出的mHC通過將傳統Transformer的單一殘差流擴展為多流並行架構,並利用Sinkhorn-Knopp演算法將連接矩陣約束在雙擬隨機矩陣流形上,成功解決了超連接(HC)在大規模訓練中因破壞恒等映射屬性而導致的數值不穩定和訊號爆炸問題。

這篇論文的第一作者有三位,包括解振達、韋毅軒、Huanqi Cao。值得注意的是,DeepSeek創始人梁文鋒也在作者名單中。

股票及指數資料由天滙財經有限公司,泓滙財經資訊有限公司及財經智珠網有限公司提供。外滙及黃金報價由路透社提供。