
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。
实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6...
原文链接
2月18日,DeepSeek发布一篇由CEO梁文锋参与的新论文,提出了改进版注意力机制NSA。同日,月之暗面也发布了一篇相似主题的论文,署名作者包括其CEO杨植麟。该论文介绍了一种名为MoBA的注意力机制,这是一种将混合专家原理应用于注意力机制的创新方法,遵循‘更少结构’原则,使模型能自主决定关注的位置。
原文链接
2月18日,DeepSeek团队发布论文介绍新机制NSA(Natively Sparse Attention),专为长文本训练与推理设计。NSA通过动态分层稀疏策略和硬件优化,显著提升AI模型在长上下文推理中的性能,同时降低成本。DeepSeek创始人梁文锋是该论文作者之一。NSA在通用及长文本任务中表现出色,尤其在链式推理等复杂任务中展现潜力,推理速度大幅提升,最高可达11.6倍。此技术有望扩展大语言模型的应用范围。
原文链接
财联社2月18日电,DeepSeek宣布推出NSA,这是一种针对现代硬件优化设计的稀疏注意力机制,适用于超快速的长上下文训练和推理。NSA不仅能加速推理速度,还能降低预训练成本,同时保持高性能。在各类基准测试中,NSA的表现与完全注意力模型相当甚至更优。
原文链接
2月18日,DeepSeek宣布推出NSA(Native Sparse Attention),一种硬件对 alignments 且原生可训练的稀疏注意力机制,旨在加速推理并降低成本,同时保持性能。NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩及细粒度token选择。DeepSeek表示,该机制在通用基准、长上下文任务和基于指令的推理中表现出色,不逊于全注意力模型。更多信息参见:
原文链接
又一家AI公司通过创新赚取利润
背景与趋势
在AI生成应用热度持续增长的背景下,市场上涌现了多种应用,从价格竞争的“替代品”到功能多样化的“高端”选项,这些应用在与早期爆款Sora的竞争中不断优化和完善。其中,Pika和Runway等产品因其独特的创意和效果赢得了用户的喜爱。
Livensa的成功之...
原文链接
近半年,AI生成应用热度不减,新玩家不断涌现,同时也有部分选择退出。尽管未如Sora般一鸣惊人,但仍有应用在竞争中积累了稳定的付费用户群体。例如,Livensa这款图(文)生视频应用,自去年6月上线,仅一年时间,就吸引了超过160万用户,进入多个图形与设计畅销榜单前十。
Livensa的最大特色在于...
原文链接
7月4日,腾讯AI实验室推出TransAgents,一款专为超长文学内容翻译设计的AI翻译框架,支持中文、英文、日文、韩文等多语种。该虚拟翻译公司模仿现实中的翻译流程,包含编辑、译者、校对员等角色,具有详细个人信息。使用成本仅为专业译者的1/80。在评估中,TransAgents在翻译质量上优于人类,尤其在领域知识丰富的任务中表现出色。立即体验和论文可以参考相关研究。
原文链接
加载更多

暂无内容