DeepSeek推出NSA機制提升長上下文訓練與推理效率

DeepSeek推出NSA機制提升長上下文訓練與推理效率

PanewsPanews2025/02/18 00:52
作者:Panews

DeepSeek推出NSA機制提升長上下文訓練與推理效率 image 0

PANews 2月18日消息,DeepSeek宣布推出NSA(稀疏注意力機制),該機制與硬體高度一致且支援本機訓練,旨在實現超快速的長上下文訓練和推理。透過針對現代硬體的最佳化設計,NSA在加速推理速度的同時顯著降低預訓練成本,且不會影響模型效能。

根據官方介紹,NSA在通用基準測試、長上下文任務以及基於指令的推理中表現優異,與完全注意力模型相比表現相當甚至更佳。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

CandyBomb x UAI:合約交易瓜分 200,000 UAI!

Bitget Announcement2025/11/07 08:00

Bitget 現貨槓桿新增 KITE/USDT, MMT/USDT!

Bitget Announcement2025/11/07 01:55

STABLEUSDT 現已上線盤前合約交易

Bitget Announcement2025/11/06 15:11

Bitget 股票合約的交易手續費將調整為 0.0065%

Bitget Announcement2025/11/06 12:00