1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Transformer危!谷歌MoR架构发布:内存减半推理速度还翻倍
2025年7月,谷歌发布全新底层架构Mixture-of-Recursions(MoR),被称作“Transformer Killer”。该架构通过统一参数共享、自适应递归深度和高效KV缓存策略,实现内存减半、推理速度翻倍,并首次在单一框架内动态分配计算资源。相比Transformer,MoR在相同FLOPs预算下减少50%参数量,提升少样本准确率至43.1%,训练时间缩短19%,峰值内存降低25%。谷歌DeepMind联合KAIST AI与Mila团队完成这一创新,或将颠覆AI计算范式。未来效果尚需时间验证。
代码编织者
07-17 18:26:53
MoR架构
Transformer
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
Mamba一作预告新架构!长文论述Transformer≠最终解法
Mamba一作预告新架构:Transformer≠最终解法 Mamba一作发表长文,探讨状态空间模型(SSMs)与Transformer的权衡。Mamba是一种现代SSM,性能超越同等规模的Transformer,被视为其有力挑战者。他提出几个核心观点:Attention虽强大但非万能;Transf...
LunarCoder
07-09 14:03:28
Mamba
SSMs
Transformer
分享至
打开微信扫一扫
内容投诉
生成图片
基于能量的Transformer横空出世!全面超越主流模型35%
基于能量的Transformer全面超越主流模型35% 弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参...
Journeyman
07-08 17:50:48
Transformer架构
系统2思维
能量基模型
分享至
打开微信扫一扫
内容投诉
生成图片
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
正文:2025年7月,Meta发布新注意力机制2-Simplicial Transformer,突破传统Transformer性能上限。该架构通过引入三元线性注意力机制,利用OpenAI开源的Triton框架优化计算,显著提升模型在数学、编程和推理任务中的表现。实验表明,在同等参数量下,新架构性能优于传统Transformer,尤其在大规模模型中表现突出,缩放指数更高,适合有限数据场景。研究人员使用Triton实现520TFLOPS运算性能,并结合滑动窗口机制降低计算成本。然而,其高计算复杂度和延迟仍需优化。Meta此番创新引发热议,同时也凸显OpenAI技术的重要性。论文已公开。
AI思维矩阵
07-07 17:34:43
2-Simplicial Transformer
Triton
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调 正文: 由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可...
代码编织者Nexus
06-13 18:12:01
LoRA
Transformer
模型微调
分享至
打开微信扫一扫
内容投诉
生成图片
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9% 大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大...
Journeyman
05-28 16:36:56
Transformer
大模型
数独
分享至
打开微信扫一扫
内容投诉
生成图片
AI怎样模仿人类大脑的注意力机制?
标题:AI如何模仿人类大脑的注意力机制? 正文: 近年来,AI领域中最热门的话题无疑是deepseek(简称DS)。作为中国本土崛起的一匹黑马,DS迅速在全球范围内引发关注,甚至一度搅动美国股市,成为AI领域的重要事件。 DS的成功离不开技术积累。创始人梁文锋坦言,DS站在了巨人的肩膀上。这个巨人可...
幻彩逻辑RainbowLogic
05-17 11:04:36
Transformer
注意力机制
自然语言处理
分享至
打开微信扫一扫
内容投诉
生成图片
Meta 推出 CATransformers 框架,AI 减排新利器
5月14日,Meta AI旗下FAIR团队与佐治亚理工学院合作推出CATransformers框架,旨在将碳排放纳入AI模型设计的核心考量。该框架通过多目标贝叶斯优化,平衡模型架构、硬件性能与碳足迹之间的关系。研究显示,传统方法仅优化运营效率忽视硬件全生命周期碳排放,而CATransformers可使碳排放降低17%-3%,同时保持低延迟(10-15毫秒)。例如,CarbonCLIP-S与TinyCLIP-39M精度相当,但碳排放减少17%;CarbonCLIP-XS精度提升8%,碳排放减少3%。此框架为AI可持续发展提供新路径,尤其适用于边缘设备推理场景。
数据炼金师
05-16 14:18:11
AI减排
CATransformers
Meta
分享至
打开微信扫一扫
内容投诉
生成图片
一个「always」站在大模型技术C位的传奇男子
标题:一个「always」站在大模型技术C位的传奇男子 正文: 怎么老是你??? 这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项...
量子思考者
05-10 12:04:35
MoE
Transformer
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平
标题:树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平 2022年初,彼时OpenAI还未发布ChatGPT,RockAI已选择押注非Transformer路线。这一选择如今显现出前瞻性。他们打造的端侧大模型可在树莓派等微型设备上流畅运行,首批搭载Yan架构大...
AI奇点纪元
04-27 16:19:13
RockAI
端侧大模型
非Transformer架构
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序