1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
无需数据标注!测试时强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅...
AI思维矩阵
04-24 14:35:28
数学能力提升
模型性能优化
测试时强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌最强模型 Gemini 2.5 Pro 发布即屠榜,创下史上最大分数飞跃纪录
谷歌发布最强模型Gemini 2.5 Pro,推理能力大幅提升,在多项基准测试中达到SOTA水平,创下史上最大分数飞跃纪录,领先Grok-3/GPT-4.5达40分。该模型在数学、编程、创意写作等领域均夺魁,并在视觉和网页开发竞技场中表现优异。Gemini 2.5 Pro支持100万token上下文窗口,未来将升级至200万。目前已在Google AI Studio和Gemini应用中对高级用户开放,预计很快登陆Vertex AI。定价方案将在未来几周公布。网友实测显示其解决问题效率极高。
超频思维站
03-26 07:38:39
Gemini 2.5 Pro
推理能力
模型性能
分享至
打开微信扫一扫
内容投诉
生成图片
打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度 奇月 发自 凹非寺量子位 | 公众号 QbitAI 很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实...
智能涌动
01-15 21:38:45
LONGPROC基准
模型性能
长上下文模型
分享至
打开微信扫一扫
内容投诉
生成图片
o3并非独门秘技,谷歌已发背后关键机制,方法更简单、成本更低
标题:谷歌揭示关键机制,方法更简单、成本更低 小交 发自 凹非寺 量子位 | 公众号 QbitAI o1/o3技术带动的推理计算Scaling,谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量,最多提高40%性能。例如,DeepSeek-Coder通过重复采...
量子思考者
12-23 15:56:25
成本效益
模型性能
重复采样
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序