1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

时隔6年,BERT升级版ModernBERT问世,更快、更准、上下文更长。发布即开源,上下文长度达8192 token,是大多数编码器的16倍。ModernBERT在信息检索、分类和实体抽取等任务中表现出色,性能达到SOTA。其速度是DeBERTa的两倍,内存占用不到DeBERTa的五分之一。

ModernBERT的现代性体现在三个方面:现代化的Transformer架构、注重效率和现代数据规模与来源。改进包括使用旋转位置嵌入替换旧的位置编码,用GeGLU层替换旧的MLP层,简化架构并添加归一化层。此外,ModernBERT利用Flash Attention 2,通过交替注意力、Unpadding和Sequence Packing以及硬件感知模型设计提升效率。

训练方面,ModernBERT使用了更多元的数据,包括网络文档、编程代码和科学文章,覆盖2万亿token。模型经过三阶段训练,最终在长上下文任务上表现优异。团队还优化了学习率策略,并公开了checkpoints以支持后续研究。

ModernBERT由Benjamin Warner、Antoine Chaffin和Benjamin ClaviéOn共同打造,旨在恢复encoder-only架构的重要性,因其更适合解决日常检索、分类和实体提取任务。

原文链接
本文链接:https://kx.umi6.com/article/10679.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
支持 100 万 Tokens 上下文,阿里通义千问推出 Qwen2.5-1M 开源模型
2025-01-27 08:22:08
ModernBERT 模型公布,接任“Hugging Face 下载榜第二”2018 年经典原版
2024-12-29 15:54:12
AI性能大幅提升!华硕发布PC新品搭载英伟达RTX Spark:支持200B参数模型本地运行
2026-06-05 16:07:23
从超级个体到超级团队,腾讯云发布WorkBuddy企业版
2026-06-05 17:06:00
月薪高达13万元!科技大厂掀起AI人才争夺战:35岁从业者成抢手资源
2026-06-08 12:26:28
连GitLab都开始裁程序员了
2026-06-04 17:12:53
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
造谣小米员工破坏展车、AI伪造事故视频!两名网络用户公开道歉
2026-06-08 18:42:21
突发!Anthropic重磅发现:AI已开始自我进化 呼吁全球暂停研究
2026-06-05 10:55:28
程序员爆料:Token烧到扛不住 公司全栈AI项目半路夭折
2026-06-03 17:32:02
让矩阵归模拟,让逻辑归数字!这家中国团队重新定义了计算机
2026-06-08 13:25:50
华为云发布Agentic AI系列新品 打造智能时代“硅基黑土地”
2026-06-05 19:12:13
重估比亚迪,从智驾开始
2026-06-04 21:22:12
24小时热文
更多
扫一扫体验小程序