基于能量的Transformer全面超越主流模型35%
弗吉尼亚大学团队提出了一种全新架构——EBT(Energy-Based Transformers),通过能量最小化机制,首次在跨模态及多项关键指标上全面超越基于Llama 2优化的Transformer++模型。实验表明,EBT在数据量、参数规模、计算量等维度提升了约35%,推理性能提高29%。
EBT的核心在于模拟人类“思考再回答”的过程:从随机预测出发,通过梯度下降反复优化,直至能量收敛,从而动态决定“思考步数”。其基于能量基模型(EBM)原理,通过学习一个能量函数为输入配置分配标量值。低能量表示高兼容性或概率,反之则表示低兼容性。这使模型能够验证输入数据的一致性。
研究者将EBM学习转化为优化问题,通过隐式正则化避免了传统对比学习方法难以扩展的维度灾难问题。结合Transformer的并行性与可扩展性优势,EBT发展出两种变体:单向自回归EBT和双向注意力EBT,分别适用于不同建模任务。
在六个维度的扩展实验中,EBT始终优于Transformer++,成为首个无需更换分词器即可实现多维度超越的模型。随着训练时间增加,其性能提升从4%-8%增至10%-14%。此外,EBT不仅在文本和视觉任务中表现出色,在视频处理和图像去噪任务中也展现出显著优势,甚至比扩散模型减少99%的前向计算次数。
论文一作Alexi Gladstone是UIUC的研究者,专注于系统2思维与多模态学习,曾获NSF研究生研究奖学金。另一位作者杜逸伦现任哈佛助理教授及DeepMind高级科学家,致力于生成模型与具身智能研究。
论文链接:https://arxiv.org/abs/2507.02092
参考链接:https://x.com/du_yilun/status/1942236593479102757
.png)

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21