1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
正文:2025年7月,Meta发布新注意力机制2-Simplicial Transformer,突破传统Transformer性能上限。该架构通过引入三元线性注意力机制,利用OpenAI开源的Triton框架优化计算,显著提升模型在数学、编程和推理任务中的表现。实验表明,在同等参数量下,新架构性能优于传统Transformer,尤其在大规模模型中表现突出,缩放指数更高,适合有限数据场景。研究人员使用Triton实现520TFLOPS运算性能,并结合滑动窗口机制降低计算成本。然而,其高计算复杂度和延迟仍需优化。Meta此番创新引发热议,同时也凸显OpenAI技术的重要性。论文已公开。
AI思维矩阵
07-07 17:34:43
2-Simplicial Transformer
Triton
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
Mamba核心作者新作:专为推理优化的注意力机制 曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。 这项由普林斯顿大学团队完成的研究包含两大创新: 其一,Grouped-Ti...
幻彩逻辑RainbowLogic
06-01 13:19:53
大语言模型
推理优化
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
AI怎样模仿人类大脑的注意力机制?
标题:AI如何模仿人类大脑的注意力机制? 正文: 近年来,AI领域中最热门的话题无疑是deepseek(简称DS)。作为中国本土崛起的一匹黑马,DS迅速在全球范围内引发关注,甚至一度搅动美国股市,成为AI领域的重要事件。 DS的成功离不开技术积累。创始人梁文锋坦言,DS站在了巨人的肩膀上。这个巨人可...
幻彩逻辑RainbowLogic
05-17 11:04:36
Transformer
注意力机制
自然语言处理
分享至
打开微信扫一扫
内容投诉
生成图片
Anthropic AI 最新研究成果发布:揭示大模型中的注意力回路
标题:Anthropic AI 揭示大模型中的注意力回路 近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时...
Journeyman
04-11 17:00:47
Anthropic
归因图
注意力回路
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1秘籍轻松迁移,只需原始数据0.3% | 邱锡鹏团队联合出品
DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。 MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partia...
智慧棱镜
02-24 16:26:25
DeepSeek-R1
MHA2MLA
多头潜在注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。 梁文锋亲自参与并...
虚拟织梦者
02-24 14:32:24
DeepSeek
推理速度
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖
2月18日,Kimi和DeepSeek发布新进展,分别推出MoBA和NSA,两者都是对注意力机制的改进。MoBA的主要研发者Andrew Lu在知乎分享了研发过程的三次挑战,称为“三入思过崖”。MoBA最初设计时旨在快速训练出支持128K长度的模型。经历了多次调整,最终在2024年初稳定下来,成为一种高效的稀疏注意力机制。MoBA的最新版本已应用于月之暗面的产品Kimi中,并在GitHub上开源。尽管初期在长文任务中表现不佳,但通过调整,MoBA最终成功上线服务用户。
虚拟微光
02-21 14:53:27
MoBA
注意力机制
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新论文再引热议,梁文锋亲自提交预印本
DeepSeek的新注意力机制论文再次引发热议。论文提出了一种名为NSA(Native Sparse Attention)的可原生训练的稀疏注意力机制,旨在解决大模型上下文建模中计算成本高的问题。 实验显示,NSA在64k上下文解码时,前向传播速度提升9倍,反向传播速度提升6倍,解码速度提升11.6...
智慧棱镜
02-19 16:55:57
DeepSeek
NSA
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新论文再次引发热议,它说了什么?
DeepSeek的最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》引起了广泛关注。该论文介绍了一种名为NSA的新型稀疏注意力机制,适用于超快长上下文训练和推理,且具有硬件对齐...
虚拟微光
02-19 16:53:40
DeepSeek
GPU
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
撞车DeepSeek NSA Kimi杨植麟署名的新注意力架构MoBA发布
2月18日,DeepSeek发布一篇由CEO梁文锋参与的新论文,提出了改进版注意力机制NSA。同日,月之暗面也发布了一篇相似主题的论文,署名作者包括其CEO杨植麟。该论文介绍了一种名为MoBA的注意力机制,这是一种将混合专家原理应用于注意力机制的创新方法,遵循‘更少结构’原则,使模型能自主决定关注的位置。
AI奇点纪元
02-19 15:57:22
MoBA
NSA
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序