1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1月10日,微软亚洲研究院发布rStar-Math技术,该技术专用于解决数学问题,采用蒙特卡洛树搜索方法。研究人员通过训练“策略模型”和“过程偏好模型”,提升了小语言AI模型的数学推理能力。测试显示,Qwen2.5-Math-7B模型准确率从58.8%提升至90.0%,Phi3-mini-3.8B模型从41.4%提升至86.4%,优于OpenAI的o1-preview模型。研究团队计划在GitHub上公开rStar-Math的代码和数据。

原文链接
本文链接:https://kx.umi6.com/article/11518.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1
2025-01-13 10:50:38
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
阿里开源最新多模态模型 Qwen2.5-VL-32B:主打视觉语言,数学推理也很强
2025-03-25 09:46:01
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
2024-11-05 16:03:16
360gpt2-o1 上线:“会思考”的国产大模型,探索 AI 推理新极限
2024-12-14 11:46:11
菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败
2024-06-30 15:55:25
TeleAI “复杂推理大模型” 达竞赛级数学表现,评分超 o1-preview
2025-01-26 17:15:51
斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准
2025-01-06 10:19:08
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限
2025-02-16 12:22:15
首次解释LLM如何推理反思!西北大学谷歌新框架:引入贝叶斯自适应强化学习,数学推理全面提升
2025-06-02 14:38:11
24小时热文
更多
扫一扫体验小程序