
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
无需数据标注!测试时强化学习,模型数学能力暴增159%!
清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅...
原文链接
谷歌发布最强模型Gemini 2.5 Pro,推理能力大幅提升,在多项基准测试中达到SOTA水平,创下史上最大分数飞跃纪录,领先Grok-3/GPT-4.5达40分。该模型在数学、编程、创意写作等领域均夺魁,并在视觉和网页开发竞技场中表现优异。Gemini 2.5 Pro支持100万token上下文窗口,未来将升级至200万。目前已在Google AI Studio和Gemini应用中对高级用户开放,预计很快登陆Vertex AI。定价方案将在未来几周公布。网友实测显示其解决问题效率极高。
原文链接
标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
奇月 发自 凹非寺量子位 | 公众号 QbitAI
很多大模型宣称能输出长达32K tokens,但实际如何?陈丹琦团队提出的新基准测试工具LONGPROC,检测长上下文模型处理复杂信息并生成回复的能力。实...
原文链接
标题:谷歌揭示关键机制,方法更简单、成本更低
小交 发自 凹非寺
量子位 | 公众号 QbitAI
o1/o3技术带动的推理计算Scaling,谷歌早在8月就讨论过。斯坦福、牛津及谷歌DeepMind团队提出通过重复采样提升推理计算量,最多提高40%性能。例如,DeepSeek-Coder通过重复采...
原文链接
加载更多

暂无内容