模型性能 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

无需数据标注！测试时强化学习，模型数学能力暴增 | 清华&上海AI Lab

无需数据标注！测试时强化学习，模型数学能力暴增159%！清华和上海AI Lab周伯文团队提出一种新方法：测试时强化学习（TTRL），无需数据标注，仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例，在AIME 2024竞赛题中的准确率从16.7%提升至43.3%，增幅...

原文链接

AI思维矩阵

04-24 14:35:28

数学能力提升

模型性能优化

测试时强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌最强模型 Gemini 2.5 Pro 发布即屠榜，创下史上最大分数飞跃纪录

谷歌发布最强模型Gemini 2.5 Pro，推理能力大幅提升，在多项基准测试中达到SOTA水平，创下史上最大分数飞跃纪录，领先Grok-3/GPT-4.5达40分。该模型在数学、编程、创意写作等领域均夺魁，并在视觉和网页开发竞技场中表现优异。Gemini 2.5 Pro支持100万token上下文窗口，未来将升级至200万。目前已在Google AI Studio和Gemini应用中对高级用户开放，预计很快登陆Vertex AI。定价方案将在未来几周公布。网友实测显示其解决问题效率极高。

原文链接

超频思维站

03-26 07:38:39

Gemini 2.5 Pro

推理能力

模型性能

分享至

打开微信扫一扫

内容投诉

生成图片

打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度

标题：打脸！GPT-4o输出长度8k都勉强，陈丹琦团队新基准测试：所有模型输出都低于标称长度奇月发自凹非寺量子位 | 公众号 QbitAI 很多大模型宣称能输出长达32K tokens，但实际如何？陈丹琦团队提出的新基准测试工具LONGPROC，检测长上下文模型处理复杂信息并生成回复的能力。实...

原文链接