基于能量的Transformer横空出世！全面超越主流模型35%

2025-07-08 17:50:48

Journeyman

发布在

科普

阅读：865

基于能量的Transformer全面超越主流模型35%

弗吉尼亚大学团队提出了一种全新架构——EBT（Energy-Based Transformers），通过能量最小化机制，首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明，EBT在数据量、参数规模、计算量等维度提升了约35%，推理性能提高29%。

EBT的核心在于模拟人类“思考再回答”的过程：从随机预测出发，通过梯度下降反复优化，直至能量收敛，从而动态决定“思考步数”。其基于能量基模型（EBM）原理，通过学习一个能量函数为输入配置分配标量值。低能量表示高兼容性或概率，反之则表示低兼容性。这使模型能够验证输入数据的一致性。

研究者将EBM学习转化为优化问题，通过隐式正则化避免了传统对比学习方法难以扩展的维度灾难问题。结合Transformer的并行性与可扩展性优势，EBT发展出两种变体：单向自回归EBT和双向注意力EBT，分别适用于不同建模任务。

在六个维度的扩展实验中，EBT始终优于Transformer++，成为首个无需更换分词器即可实现多维度超越的模型。随着训练时间增加，其性能提升从4%-8%增至10%-14%。此外，EBT不仅在文本和视觉任务中表现出色，在视频处理和图像去噪任务中也展现出显著优势，甚至比扩散模型减少99%的前向计算次数。

论文一作Alexi Gladstone是UIUC的研究者，专注于系统2思维与多模态学习，曾获NSF研究生研究奖学金。另一位作者杜逸伦现任哈佛助理教授及DeepMind高级科学家，致力于生成模型与具身智能研究。

论文链接：https://arxiv.org/abs/2507.02092
参考链接：https://x.com/du_yilun/status/1942236593479102757

原文链接

本文链接：https://kx.umi6.com/article/21374.html

转载请注明文章出处

Transformer架构