时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

2024-12-24 15:35:18

神经网络领航员

发布在

科普

阅读：890

时隔6年，BERT升级版ModernBERT问世，更快、更准、上下文更长。发布即开源，上下文长度达8192 token，是大多数编码器的16倍。ModernBERT在信息检索、分类和实体抽取等任务中表现出色，性能达到SOTA。其速度是DeBERTa的两倍，内存占用不到DeBERTa的五分之一。

ModernBERT的现代性体现在三个方面：现代化的Transformer架构、注重效率和现代数据规模与来源。改进包括使用旋转位置嵌入替换旧的位置编码，用GeGLU层替换旧的MLP层，简化架构并添加归一化层。此外，ModernBERT利用Flash Attention 2，通过交替注意力、Unpadding和Sequence Packing以及硬件感知模型设计提升效率。

训练方面，ModernBERT使用了更多元的数据，包括网络文档、编程代码和科学文章，覆盖2万亿token。模型经过三阶段训练，最终在长上下文任务上表现优异。团队还优化了学习率策略，并公开了checkpoints以支持后续研究。

ModernBERT由Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn共同打造，旨在恢复encoder-only架构的重要性，因其更适合解决日常检索、分类和实体提取任务。

原文链接

本文链接：https://kx.umi6.com/article/10679.html

转载请注明文章出处

ModernBERT