1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:MIT新研究:在测试时训练,模型推理能力最高提升5.8倍

MIT的研究表明,在测试时对大模型进行训练,可以显著提升其推理能力。在超难的ARC任务中,这种“测试时训练”(Test-Time Training, TTT)方法使模型准确率最高提升至5.83倍,甚至超越了GPT-4和Claude的表现。

不同于传统的训练模式,TTT方法在推理时利用测试样本本身的信息进行快速训练,以调整模型参数。整个过程包括三个关键阶段:数据生成、模型适应范式设计以及推理策略。

数据生成通过构造新的训练任务和数据增强来扩大TTT训练数据集。模型适应范式采用参数高效的LoRA技术,通过低秩矩阵调节预训练模型的权重。在推理阶段,应用数据增强和集成学习策略,提升模型性能。

研究团队以8B参数的GPT-3为基础模型进行测试,结果显示,使用TTT方法后,模型准确率从18.3%提升至47.1%,增长率达到157%。此外,TTT方法对1B模型的提升更为显著,准确率接近调整前的6倍。结合其他方法,TTT还能超过人类的平均水平。

这项研究还提到,此前已有团队利用相同技术在ARC挑战中获得58%的正确率。斯坦福大学华人学者Sun也在研究TTT方法,并取得了一系列重要成果。

原文链接
本文链接:https://kx.umi6.com/article/8607.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
o1不是唯一路径!MIT新研究:在测试时训练,模型推理能力最高升至5.8倍
2024-11-12 16:08:07
瞄准AI电力缺口 谷歌和特斯拉组建“电网利用联盟”
2026-03-11 19:30:48
华泰证券:美以伊冲突下油价高涨或将推升电价
2026-03-10 09:02:22
Anthropic更新Skills生成器
2026-03-11 11:57:22
“龙虾”不得擅自购物!美国法院勒令AI智能体停止访问电商账号
2026-03-11 17:22:20
AMD 扩展锐龙 AI 嵌入式处理器产品组合 为工业与 AI 边缘解决方案提供可扩展的高效 AI 计算能力
2026-03-10 11:07:44
20亿砸向00后创业机器人公司!估值一年暴涨7倍,国家级资本重仓
2026-03-11 12:58:02
AWE2026前瞻:多款机器人、AI眼镜新品国内首展
2026-03-11 18:28:22
三星:考虑与多家AI公司建立合作 押注“多AI模型”手机战略
2026-03-09 20:09:26
xAI计划在密西西比州建造一座天然气发电厂
2026-03-10 14:26:31
江苏有线等成立科技公司 经营范围含集成电路芯片及产品制造等业务
2026-03-10 10:02:35
闲鱼“小龙虾”搜索暴涨1850%
2026-03-11 13:04:14
OpenAI据悉拟在ChatGPT中接入视频生成工具Sora
2026-03-11 16:17:18
24小时热文
更多
扫一扫体验小程序