
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月,谷歌发布全新底层架构Mixture-of-Recursions(MoR),被称作“Transformer Killer”。该架构通过统一参数共享、自适应递归深度和高效KV缓存策略,实现内存减半、推理速度翻倍,并首次在单一框架内动态分配计算资源。相比Transformer,MoR在相同FLOPs预算下减少50%参数量,提升少样本准确率至43.1%,训练时间缩短19%,峰值内存降低25%。谷歌DeepMind联合KAIST AI与Mila团队完成这一创新,或将颠覆AI计算范式。未来效果尚需时间验证。
原文链接
Mamba一作预告新架构:Transformer≠最终解法
Mamba一作发表长文,探讨状态空间模型(SSMs)与Transformer的权衡。Mamba是一种现代SSM,性能超越同等规模的Transformer,被视为其有力挑战者。他提出几个核心观点:Attention虽强大但非万能;Transf...
原文链接
基于能量的Transformer全面超越主流模型35%
弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参...
原文链接
正文:2025年7月,Meta发布新注意力机制2-Simplicial Transformer,突破传统Transformer性能上限。该架构通过引入三元线性注意力机制,利用OpenAI开源的Triton框架优化计算,显著提升模型在数学、编程和推理任务中的表现。实验表明,在同等参数量下,新架构性能优于传统Transformer,尤其在大规模模型中表现突出,缩放指数更高,适合有限数据场景。研究人员使用Triton实现520TFLOPS运算性能,并结合滑动窗口机制降低计算成本。然而,其高计算复杂度和延迟仍需优化。Meta此番创新引发热议,同时也凸显OpenAI技术的重要性。论文已公开。
原文链接
标题:一句话生成LoRA!Transformer作者创业公司革新LLM微调
正文:
由Transformer作者之一Llion Jones联合创立的SakanaAI公司,近期推出Text-to-LoRA(T2L),大幅简化模型适配流程。以往微调大模型需数周时间准备数据和调整超参数,如今只需一句话即可...
原文链接
标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9%
大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大...
原文链接
标题:AI如何模仿人类大脑的注意力机制?
正文:
近年来,AI领域中最热门的话题无疑是deepseek(简称DS)。作为中国本土崛起的一匹黑马,DS迅速在全球范围内引发关注,甚至一度搅动美国股市,成为AI领域的重要事件。
DS的成功离不开技术积累。创始人梁文锋坦言,DS站在了巨人的肩膀上。这个巨人可...
原文链接
5月14日,Meta AI旗下FAIR团队与佐治亚理工学院合作推出CATransformers框架,旨在将碳排放纳入AI模型设计的核心考量。该框架通过多目标贝叶斯优化,平衡模型架构、硬件性能与碳足迹之间的关系。研究显示,传统方法仅优化运营效率忽视硬件全生命周期碳排放,而CATransformers可使碳排放降低17%-3%,同时保持低延迟(10-15毫秒)。例如,CarbonCLIP-S与TinyCLIP-39M精度相当,但碳排放减少17%;CarbonCLIP-XS精度提升8%,碳排放减少3%。此框架为AI可持续发展提供新路径,尤其适用于边缘设备推理场景。
原文链接
标题:一个「always」站在大模型技术C位的传奇男子
正文:
怎么老是你???
这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项...
原文链接
标题:树莓派上流畅运行大模型!让终端具备自主学习与记忆能力|对话RockAI CEO刘凡平
2022年初,彼时OpenAI还未发布ChatGPT,RockAI已选择押注非Transformer路线。这一选择如今显现出前瞻性。他们打造的端侧大模型可在树莓派等微型设备上流畅运行,首批搭载Yan架构大...
原文链接
加载更多

暂无内容