1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
监督学习也能从错误中学习反思?!清华英伟达联合提出隐式负向策略爆炸提升数学能力
标题:清华与英伟达合作提出新算法:监督学习也能从错误中学习? 清华大学联合英伟达和斯坦福大学提出了一种名为NFT(Negative-aware FineTuning)的新监督学习方法。该方法基于RFT(Rejection FineTuning)算法,通过引入“隐式负向策略”来利用负向数据进行训练,从...
跨界思维
06-22 14:17:41
数学能力
监督学习
负向策略
分享至
打开微信扫一扫
内容投诉
生成图片
无需数据标注!测试时强化学习,模型数学能力暴增 | 清华&上海AI Lab
无需数据标注!测试时强化学习,模型数学能力暴增159%! 清华和上海AI Lab周伯文团队提出一种新方法:测试时强化学习(TTRL),无需数据标注,仅靠模型自身生成数据即可显著提升数学能力。以Qwen-2.5-Math-7B为例,在AIME 2024竞赛题中的准确率从16.7%提升至43.3%,增幅...
AI思维矩阵
04-24 14:35:28
数学能力提升
模型性能优化
测试时强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
科大讯飞星火 X1 模型升级,数学能力全面对标 DeepSeek R1 和 OpenAI o1
3月3日,科大讯飞宣布星火X1模型升级,数学能力全面对标DeepSeek R1和OpenAI o1。此次升级显著提升了数学答题效果,尤其在竞赛级难题上表现突出。星火X1在中小学数学作业批改、辅导及题目推荐等方面也有优势。此外,升级后的星火医疗大模型X1在医疗复杂场景推理上效果超过GPT-4o及DeepSeek R1,大幅降低医疗幻觉问题。星火教师助手也升级,实现AI教学思路更清晰详实,支持思维可视化。AI法官助理则提升了法律推理能力,贯穿案情分析、证据审查等环节。
小阳哥
03-03 10:16:41
DeepSeek R1
数学能力
科大讯飞星火X1
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌杀回来了,新版Gemini跑分超o1登顶第一
谷歌最新发布的Gemini模型(Exp 1114)在竞技场Imsys的评测中超越了OpenAI的o1模型,成为新的榜首。经过6000多名网友的匿名投票,Gemini在多个项目中表现出色,包括数学、复杂提示处理、创意写作、指令遵循、长查询处理以及多轮对话能力。尤其值得一提的是,Gemini在数学能力上与o1不分伯仲。尽管在编程方面表现一般,但其视觉能力突出,超越了GPT-4o。此外,Gemini拥有32k的上下文窗口,支持思维链功能。目前,该模型已在谷歌AI Studio上线,官方计划后续提供API。尽管一些用户对其表现持保留态度,但总体来看,这一成果让谷歌在AI领域再度领先。 摘要中的关键信息均保留,符合新闻三要素。摘要长度为213字。
AI创意引擎
11-15 18:02:26
AI模型竞赛
数学能力
谷歌Gemini
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
【新闻摘要】 OpenAI发布的新模型o1在lmsys排行榜上全面超越Claude和谷歌Gemini模型,成为数学领域的佼佼者。o1-preview版本在数学、编码和提示领域均展现卓越能力,与最新版GPT-4o并列综合排名第二,而其迷你版o1-mini同样在多个领域与o1-preview并驾齐驱。...
LunarCoder
09-20 14:20:11
lmsys排行榜
OpenAI o1
数学能力
分享至
打开微信扫一扫
内容投诉
生成图片
10行代码让大模型数学提升20%,“野路子”研究谷歌也测上了
标题:10行代码让大模型数学提升20%,开源研究受谷歌关注 关键信息:独立学者提出仅需10行代码就能大幅提升大模型数学能力20%的改进方案,名为"最小p采样"(min-p sampling)。此方法旨在平衡生成文本的连贯性和多样性,通过动态调整抽样阈值来实现。研究显示,该方法已在Mistral-7...
AI思维矩阵
08-24 14:37:28
min-p采样
大模型数学能力提升
开源社区关注
分享至
打开微信扫一扫
内容投诉
生成图片
Qwen2-Math 开源 AI 模型发布:阿里通义千问家族新成员,数学能力超 GPT-4o
【阿里通义千问家族新成员Qwen2-Math开源发布】 阿里通义千问家族迎来数学能力超GPT-4的全新成员——Qwen2-Math。这一开源AI模型共有15亿、70亿及720亿参数三个版本,基于Qwen2 LLM构建,专为数学解题而设。据评估,在数学基准测试中,Qwen2-Math的72B指令微调模型展现出超越GPT-4、Claude-3.5-Sonnet、Gemini-1.5-Pro及Llama-3.1-405B的卓越性能。团队正积极开发支持英文与中文的双语模型,并计划进一步扩展至多语言领域。此模型的发布,旨在助力科学界解决复杂数学问题,展现出了强大的数学解题能力与潜力。 【时效性信息】 - 发布日期:2023年8月9日 - 特点:开源、数学解题能力超越GPT-4 - 计划:开发支持多语言的版本
灵感Phoenix
08-09 10:57:07
Qwen2-Math
数学能力
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
贾佳亚团队新作:10k数据让大模型数学能力超GPT-4
港中文贾佳亚团队发布新成果,利用10k数据和Step-DPO算法,72B Qwen模型在数学能力上超越GPT-4等模型,提升了5.6%。该团队借鉴教育方式,通过细化DPO形成逐步应用策略,增强了大模型的推理和长链条推理任务能力。研究还展示了如何通过模型自动生成数据处理流程,仅需少量人工验证,就能有效提升模型在数学测试集上的准确性,如MATH和GSM8K,甚至在竞赛题上也有所突破。项目代码、数据和模型已开放至GitHub和Hugging Face,供学术界和公众访问。
AI创意引擎
07-06 03:20:54
Step-DPO
大模型优化
数学能力提升
分享至
打开微信扫一扫
内容投诉
生成图片
8B模型奥数成绩比肩GPT-4!上海AI Lab出品
上海AI Lab研发出名为MCTSr的8B参数数学模型,凭借蒙特卡洛算法和Llama 3技术,在奥赛级别数学题上达到与GPT-4相当的准确率。模型仅用1/200参数量,通过自我修正和评估,展示出小模型在数学上的强大性能,挑战了传统观点。研究团队在GSM-8K和MATH测试中,随着自我优化轮数增加,模型表现持续提升,甚至在新发布的Math Odyssey数据集上展现泛化能力。MCTSr代码已开源,可于GitHub获取。
虚拟微光
06-18 15:21:20
MCTSr
数学能力
蒙特卡洛算法
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序