时隔6年,BERT升级版ModernBERT问世,更快、更准、上下文更长。发布即开源,上下文长度达8192 token,是大多数编码器的16倍。ModernBERT在信息检索、分类和实体抽取等任务中表现出色,性能达到SOTA。其速度是DeBERTa的两倍,内存占用不到DeBERTa的五分之一。
ModernBERT的现代性体现在三个方面:现代化的Transformer架构、注重效率和现代数据规模与来源。改进包括使用旋转位置嵌入替换旧的位置编码,用GeGLU层替换旧的MLP层,简化架构并添加归一化层。此外,ModernBERT利用Flash Attention 2,通过交替注意力、Unpadding和Sequence Packing以及硬件感知模型设计提升效率。
训练方面,ModernBERT使用了更多元的数据,包括网络文档、编程代码和科学文章,覆盖2万亿token。模型经过三阶段训练,最终在长上下文任务上表现优异。团队还优化了学习率策略,并公开了checkpoints以支持后续研究。
ModernBERT由Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn共同打造,旨在恢复encoder-only架构的重要性,因其更适合解决日常检索、分类和实体提取任务。
原文链接
本文链接:https://kx.umi6.com/article/10679.html
转载请注明文章出处
相关推荐
换一换
ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版
2024-12-29 15:54:12
支持 100 万 Tokens 上下文,阿里通义千问推出 Qwen2.5-1M 开源模型
2025-01-27 08:22:08
国家知识产权局:将积极完善新兴领域知识产权保护制度
2026-04-23 17:20:53
昆仑万维2025年营收同比增长44.78%至81.98亿 “4+3”战略构建AI Native平台经济新范式
2026-04-23 21:31:07
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
阿里云百炼上线DeepSeek-V4
2026-04-24 20:31:56
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
谷歌发布一系列新AI工具
2026-04-22 21:32:58
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价
2026-04-23 16:19:37
谷歌:目前谷歌所有新代码中 75%由人工智能生成
2026-04-22 20:28:17
阶跃StepAudio 2.5 ASR上线 支持500TPS极速推理
2026-04-24 14:19:56
666 文章
502471 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38