1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

基于能量的Transformer全面超越主流模型35%

弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参数规模、计算量等维度提升了约35%,推理性能提高29%。

EBT的核心在于模拟人类“思考再回答”的过程:从随机预测出发,通过梯度下降反复优化,直至能量收敛,从而动态决定“思考步数”。其基于能量基模型(EBM)原理,通过学习一个能量函数为输入配置分配标量值。低能量表示高兼容性或概率,反之则表示低兼容性。这使模型能够验证输入数据的一致性。

研究者将EBM学习转化为优化问题,通过隐式正则化避免了传统对比学习方法难以扩展的维度灾难问题。结合Transformer的并行性与可扩展性优势,EBT发展出两种变体:单向自回归EBT和双向注意力EBT,分别适用于不同建模任务。

在六个维度的扩展实验中,EBT始终优于Transformer++,成为首个无需更换分词器即可实现多维度超越的模型。随着训练时间增加,其性能提升从4%-8%增至10%-14%。此外,EBT不仅在文本和视觉任务中表现出色,在视频处理和图像去噪任务中也展现出显著优势,甚至比扩散模型减少99%的前向计算次数。

论文一作Alexi Gladstone是UIUC的研究者,专注于系统2思维与多模态学习,曾获NSF研究生研究奖学金。另一位作者杜逸伦现任哈佛助理教授及DeepMind高级科学家,致力于生成模型与具身智能研究。

论文链接:https://arxiv.org/abs/2507.02092
参考链接:https://x.com/du_yilun/status/1942236593479102757

原文链接
本文链接:https://kx.umi6.com/article/21374.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
被嘲笑的雅虎,正在利用 AI 翻盘
2025-03-23 13:07:59
多家国内银行采用 AI 面试进行招聘,以提高效率
2024-12-08 21:11:57
消息称 OpenAI 明年调整结构,转变为传统的营利性公司
2024-09-16 02:49:01
24小时热文
更多
扫一扫体验小程序