推理大模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

昆仑万维发布并开源全新推理大模型 MindLink，基于 Qwen3-32B 和 Qwen2.5-72B 进行后训练

8月2日，昆仑万维发布并开源全新推理大模型Skywork MindLink，基于Qwen3-32B和Qwen2.5-72B后训练。该模型采用Plan-based Reasoning新推理范式，可自适应整合推理与非推理回复，显著降低推理成本，提升多轮对话能力及可读性。在10项无外接工具评测中，MindLink表现优异，包括‘人类最后的考试’第一、4项奥赛数学评测第一（USAMO 2025、AIME 2024等），以及通识领域GPQA-diamond和MMLU-pro领先成绩。模型还提出全新数学方法分析推理有效性，并承诺未来开源更多尺寸版本。相关权重、技术报告及代码已公开。

原文链接

像素宇宙

08-02 16:20:41

分享至

打开微信扫一扫

内容投诉

生成图片

10% KV Cache实现无损数学推理！这个开源方法解决推理大模型「记忆过载」难题

标题：10% KV Cache实现无损数学推理！开源方法解决大模型「记忆过载」难题推理大模型虽然强大，但面对复杂问题时会产生大量冗余内容，影响效率和准确性。一种名为R-KV的开源方法通过高效压缩KV缓存解决了这一问题，显存需求减少90%，吞吐量提升6.6倍，且保持100%的推理准确率。 R-K...

原文链接

数据炼金师

06-16 17:10:44

分享至

打开微信扫一扫

内容投诉

生成图片

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

标题：推理大模型1年内可能遭遇性能瓶颈一年内，大模型推理训练或将遇到瓶颈。这一结论来自Epoch AI，该非营利组织专注于AI研究和基准测试，曾推出备受关注的FrontierMath基准测试。研究表明，若推理模型继续以每3-5个月翻十倍的速度扩展，其训练所需的算力可能会迅速收敛。 OpenAI...

原文链接

智慧棱镜

05-13 15:52:46

分享至

打开微信扫一扫

内容投诉

生成图片

小米首个推理大模型开源

4月30日，小米开源首个专为推理设计的大模型「Xiaomi MiMo」。在AIME和LiveCodeBench评测中，MiMo仅用7B参数规模，就超越了OpenAI的o1-mini和阿里更大型号QwQ-32B-Preview。MiMo通过预训练和后训练结合的方式提升推理能力，预训练阶段生成约200B tokens推理数据，训练总量达25T tokens；后训练采用创新算法和框架，使RL训练速度提升2.29倍。MiMo已在HuggingFace开源，其技术细节也在GitHub公布。这是小米大模型Core团队的首次尝试，标志着AGI探索的持续努力。

原文链接

数据炼金师

04-30 20:36:34

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek/o3的弱点找到了！三心二意明明对了又改错了

最新研究发现，推理大模型在处理高难度问题时会出现“欠思考”现象，频繁切换解题思路导致无效努力。腾讯AI实验室、苏州大学和上海交大团队通过分析DeepSeek-R1和Qwen QwQ系列模型，指出这些模型在初期找到正确思路后，很快转向其他思路，浪费计算资源。研究显示，类o1模型在错误回答中比正确回答多消耗225%的token，思维切换频率增加418%。为解决此问题，研究者提出“思路切换惩罚机制”(TIP)，使模型在AIME2024测试中准确率提升4%。同时，UC Berkeley教授Alex Dimakis建议采用“简洁解码”策略，提高6%-7%的准确率。

原文链接

镜像现实MirageX

02-04 19:46:08

分享至

打开微信扫一扫

内容投诉

生成图片

揭秘DeepSeek/o3弱点

最新研究揭示，推理大模型如DeepSeek-R1和Qwen QwQ在处理高难度问题时易出现‘欠思考’现象，即频繁切换解题思路但缺乏深入探索，导致答案不准确且浪费计算资源。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，通过分析模型错误答案发现，这类模型在思考早期就走上正确路线，但很快转向其他思路。实验显示，类o1模型在错误回答中比正确回答多消耗225%的token，思维切换频率增加418%。为解决此问题，研究者提出“思路切换惩罚机制”（TIP），使模型在当前路径上探索更久，实验结果表明准确率提升且UT Score下降。此外，UC Berkeley教授Alex Dimakis提出“简洁解码”方法，通过并行运行多次模型选择最简答案，提高准确率6%-7%。

原文链接

数码游侠

02-04 11:32:18

分享至

打开微信扫一扫

内容投诉

生成图片

攻击DeepSeek最薄弱的地方，发现……

标题：探究推理大模型的弱点最新研究显示，面对难题时，推理大模型可能会频繁切换解题思路，导致效率低下，这种现象被称为“欠思考”。研究团队来自腾讯AI实验室、苏州大学和上海交通大学，主要研究对象是开源的DeepSeek-R1和Qwen QwQ系列模型。研究发现，这些模型在初期找到了正确的解题思路，但...

原文链接

代码编织者Nexus

02-03 15:15:35

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达年终核弹：全新B300为o1推理大模型打造

英伟达发布全新AI芯片B300及超级芯片GB300，相比B200，B300在FLOPS上提升了50%，显存从192GB增加到288GB。GB300 NVL72被评价为唯一能让OpenAI o1/o3推理大模型达到10万tokens的方案。自第三季度起，多家AI巨头已将订单从B200转向B300。B300的升级主要来自工艺节点优化、功率提升及架构微创新。GB300系列改为参考板模式，为OEM和ODM制造商带来新机会。B300显著提升推理大模型的思维链长度和处理效率，降低成本，提高用户体验。

原文链接

数据炼金师

12-26 22:43:48

分享至

打开微信扫一扫

内容投诉

生成图片

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

英伟达发布了全新的B300 GPU及GB300超级芯片，算力提升50%，显存从192GB增至288GB。B300系列针对推理大模型优化，尤其适合OpenAI o1/o3模型，可大幅提高思维链长度和处理效率。GB300 NVL72单元能以低延迟处理复杂任务。此外，RTX5090曝光，预计配备32GB显存，支持8K游戏。英伟达正快速迭代产品，多家AI巨头已转向B300。

原文链接

GhostPilot

12-26 12:30:31

分享至

打开微信扫一扫

内容投诉

生成图片

度小满，让“推理大模型”走向金融核心业务

近日，2024年香港金融科技周在香港亚洲国际博览馆开幕，期间“大模型在金融行业的应用”成为最受关注的话题。度小满CEO朱光在主论坛上表示，以OpenAI的“o1”推理大模型为代表的生成式AI技术，将从外围场景深入到金融核心业务，直接影响金融行业的核心决策质量。朱光指出，推理大模型具有“慢思考”特点，能解决复杂问题，已在风控、信贷决策、投资决策等场景中展现出巨大潜力。例如，度小满正利用推理大模型分析客户的征信报告和银行流水，以评估其还款能力并提供风控决策建议。这一技术有望重塑金融科技行业，推动金融智能化的深度变革。此次大会展示了AI在金融领域的前沿应用，预示着未来金融行业的巨大价值提升。

原文链接

像素宇宙

10-31 11:42:48

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多