梁文锋带实习生发论文，DeepSeek降本新招来了

发布时间 2025-02-19 20:12
来源投资界
阅读量：5683

2月18日，DeepSeek团队发布一篇论文介绍了新的注意力机制NSA。

NSA专为长文本训练与推理设计，能利用动态分层稀疏策略等方法，通过针对现代硬件的优化设计，显著优化传统AI模型在训练和推理过程中的表现，特别是提升长上下文的推理能力，在保证性能的同时提升了推理速度，并有效降低了预训练成本。

DeepSeek创始人梁文锋现身论文著作者之中，在作者排名中位列倒数第二。

其他研究人员来自DeepSeek、北大和华盛顿大学，其中*作者Jingyang Yuan是在DeepSeek实习期间完成的这项研究。

资料显示，袁景阳目前为北京大学硕士研究生。他的研究领域包括大型语言模型、人工智能在科学中的应用(AI for Science)。他是DeepSeek-V3技术报告的主要作者之一，还参与了DeepSeek-R1项目，该项目旨在通过强化学习激励大型语言模型的推理能力。

在论文中，DeepSeek团队表示，随着大型语言模型的发展，长上下文建模变得越来越重要，但传统注意力机制的计算复杂度随着序列长度的增加而呈平方级增长，成为制约模型发展的关键瓶颈。

NSA便是为高效处理长上下文任务而生的一种技术路径，其核心创新在于:

1)动态分层稀疏策略:结合粗粒度的Token压缩和细粒度的Token选择，既保证全局上下文感知，又兼顾局部信息的精确性。

2)硬件对齐与端到端训练:通过算术强度平衡的算法设计和硬件优化，显著提升计算速度，同时支持端到端训练，减少预训练计算量。

实验表明，NSA不仅在通用任务和长上下文任务中表现出色，还在链式推理等复杂任务中展现了强大的潜力，且推理速度加快。在通用基准测试、长文本处理以及基于指令的推理任务中，NSA的表现均能达到甚至超越传统全注意力模型的水平，其以性价比极高的方式，罕见地在训练阶段应用稀疏性，在训推场景中均实现速度的明显提升，特别是在解码阶段实现了高达11.6倍的提升。

通过高效的长序列处理能力，NSA使模型能够直接处理整本书籍、代码仓库或多轮对话，扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如，Gemini 1.5 Pro已展示长上下文潜力，NSA可进一步降低此类模型的训练与推理成本。

免责声明：该文章系本站转载，旨在为读者提供更多信息资讯。所涉内容不构成投资、消费建议，仅供读者参考。

扩展阅读

海口海关发布十项措施促海南自贸港旅游消费升级 2025-02-18 23:08

视频｜29只中证A500ETF集体收跌，A500ETF永 2025-02-18 21:42

济宁：“金融活水”赋能乡村产业发展 2025-02-18 20:42

超讯通信：设立新公司完成工商登记 2025-02-18 20:00

安道拓中国技术中心升级扩建完成，持续加码本土创新 2025-02-18 19:12

地方两会观察持续用力推动房地产市场止跌回稳——从地方两会 2025-02-18 18:37

牙膏挤爆大众第五代EA888技术解析 2025-02-18 18:01

陈浩濂：人民币贸易融资流动资金安排计划本月底启动 2025-02-18 17:42

图文速览