1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

基于能量的Transformer全面超越主流模型35%

弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参数规模、计算量等维度提升了约35%,推理性能提高29%。

EBT的核心在于模拟人类“思考再回答”的过程:从随机预测出发,通过梯度下降反复优化,直至能量收敛,从而动态决定“思考步数”。其基于能量基模型(EBM)原理,通过学习一个能量函数为输入配置分配标量值。低能量表示高兼容性或概率,反之则表示低兼容性。这使模型能够验证输入数据的一致性。

研究者将EBM学习转化为优化问题,通过隐式正则化避免了传统对比学习方法难以扩展的维度灾难问题。结合Transformer的并行性与可扩展性优势,EBT发展出两种变体:单向自回归EBT和双向注意力EBT,分别适用于不同建模任务。

在六个维度的扩展实验中,EBT始终优于Transformer++,成为首个无需更换分词器即可实现多维度超越的模型。随着训练时间增加,其性能提升从4%-8%增至10%-14%。此外,EBT不仅在文本和视觉任务中表现出色,在视频处理和图像去噪任务中也展现出显著优势,甚至比扩散模型减少99%的前向计算次数。

论文一作Alexi Gladstone是UIUC的研究者,专注于系统2思维与多模态学习,曾获NSF研究生研究奖学金。另一位作者杜逸伦现任哈佛助理教授及DeepMind高级科学家,致力于生成模型与具身智能研究。

论文链接:https://arxiv.org/abs/2507.02092
参考链接:https://x.com/du_yilun/status/1942236593479102757

原文链接
本文链接:https://kx.umi6.com/article/21374.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
视频大模型“造梦机器”爆红:瑕疵真不少,关键是能用
2024-06-14 09:22:57
换掉Transformer,7B开源模型立刻登顶!任意长序列都能处理
2024-08-15 09:09:09
非 Transformer 架构 AI 模型 Liquid 问世,号称性能“凌驾 Meta Llama / 微软 Phi”
2024-10-09 09:45:15
Sora遭遇强敌,造梦机器爆红:实测效果让人意外
2024-06-14 08:42:36
基于能量的Transformer横空出世!全面超越主流模型35%
2025-07-08 17:50:48
大模型的效率腾飞,彩云科技做对了什么?
2024-11-18 11:20:45
离线智能,什么时候迎来DeepSeek 时刻?
2025-07-26 14:41:20
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
2025-01-16 10:52:27
前谷歌 AI 研究员:ChatGPT 原本可以更早出现的
2024-11-18 10:21:49
史上最快AI芯片Sohu获1.2亿美元融资;Groq进行估值25亿美元融资;Mac版ChatGPT开放下载丨AI情报局
2024-06-27 17:49:26
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
OpenAI杀入招聘市场:打造AI技能认证体系+人才对接平台
2025-09-05 06:12:15
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
24小时热文
更多
扫一扫体验小程序