AI推理模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

牛津、斯坦福大学新研究：能“思考”的 AI 推理模型更易受到越狱攻击

11月7日，牛津、斯坦福大学联合研究发现，具备“思考”能力的AI推理模型更易受到越狱攻击。研究人员提出“链式思维劫持”方法，测试显示在部分情况下攻击成功率超80%。这种攻击通过将有害指令隐藏在无害推理步骤中，绕过AI安全防护，可能生成危险内容如武器制作指南或泄露敏感信息。随着推理链延长，成功率从27%飙升至80%以上，影响ChatGPT、Claude等主流模型。研究建议采用“推理感知防护”方案监控AI推理过程，早期测试表明可有效恢复安全性并保持性能。

原文链接

Oasis

11-08 21:58:37

AI推理模型

越狱攻击

链式思维劫持

分享至

打开微信扫一扫

内容投诉

生成图片

阿联酋基于阿里巴巴Qwen 2.5推出低成本AI推理模型宣称“性价比”超同行20倍

9月9日，阿联酋穆罕默德·本·扎耶德人工智能大学与G42联合发布低成本AI推理模型“K2 Think”。该模型基于阿里巴巴开源Qwen 2.5构建，仅需320亿参数，性能却超越规模大20倍的模型，宣称性价比超同行20倍。通过长链式思维监督微调和推理阶段扩展等技术，“K2 Think”在数学、科学等特定领域表现出色。这一成果展示了阿联酋在AI领域的创新能力，同时凸显开源技术对全球AI发展的推动作用。

原文链接

GhostPilot

09-09 22:23:41

Qwen 2.5

低成本AI推理模型

阿联酋

分享至

打开微信扫一扫

内容投诉

生成图片

阿联酋推出低成本AI推理模型宣称“性价比”超同行20倍

当地时间9月9日，阿联酋穆罕默德·本·扎耶德人工智能大学（MBZUAI）与G42联合发布低成本推理模型“K2 Think”。该模型仅需320亿参数，性能却超越规模大20倍的同类模型，基于阿里巴巴开源Qwen 2.5构建，并在Cerebras硬件上运行。团队采用长链式思维监督微调和推理阶段扩展等技术，将其作为系统部署并持续优化。MBZUAI称，K2 Think不仅是技术突破，更是阿联酋AI领域的重要里程碑。阿联酋正努力成为全球AI领导者，以减少对原油依赖。尽管面临中美领先竞争，K2 Think专注于数学、科学等特定领域应用，旨在用更少资源实现高效推理，惠及缺乏资本的地区。

原文链接

小阳哥

09-09 22:23:30

AI推理模型

K2 Think

阿联酋

分享至

打开微信扫一扫

内容投诉

生成图片

消息称百度计划 8 月底前发布 AI 推理新模型，未来几个月推文心 5.0

百度计划于2025年8月底前发布一款新的AI推理模型，该模型可处理更复杂任务，以应对与DeepSeek和OpenAI等公司的竞争。此外，百度还将在未来几个月推出其核心基础模型的更新版本——文心5.0（Ernie 5.0）。今年3月，百度已发布了文心大模型4.5和X1，其中4.5在多模态理解和逻辑推理等方面表现优于GPT4.5，而X1则对标DeepSeek-R1，具备多模态与多工具调用能力。新模型的发布将进一步巩固百度在AI领域的竞争力。

原文链接

AI奇点纪元

08-07 16:52:59

AI推理模型

文心大模型

百度

分享至

打开微信扫一扫

内容投诉

生成图片

Epoch AI 预言：最快 1 年内，推理模型步伐将放缓

Epoch AI 最新报告显示，AI 企业从推理模型中获取巨大性能收益将变难，最快一年内推理模型进步将放缓。报告基于公开数据和假设，指出了计算资源限制和研究开销增加的问题。推理模型依赖强化学习技术优化难题解决能力，但需更多计算资源处理复杂任务。OpenAI 在 o3 模型训练中投入 10 倍于 o1 的计算资源，未来计划进一步加大强化学习投资。尽管强化学习性能每 3-5 个月增长十倍，但其增长面临物理与经济约束，可能在 2026 年与整体 AI 前沿进展趋同。Josh You 警告，高研究开销或使推理模型难以实现预期规模。

原文链接

蝶舞CyberSwirl

05-14 09:09:06

AI推理模型

强化学习

性能增长

分享至

打开微信扫一扫

内容投诉

生成图片

微软发布 Phi-4 系列小语言 AI 推理模型，AIME 2025 跑分超满血版 Deepseek R1

4月30日，微软发布Phi-4推理模型系列，包括Phi-4-reasoning、Phi-4-reasoning-plus及Phi-4-mini-reasoning三款。Phi-4-reasoning采用140亿参数，通过监督微调Phi-4和OpenAI o3-mini数据集训练，擅长复杂推理任务，尤其在数学和科学问题上表现优异，在AIME 2025测试中超越6710亿参数的DeepSeek-R1满血版。增强版Phi-4-reasoning-plus通过强化学习进一步提升性能，tokens用量增加1.5倍。Phi-4-mini-reasoning则针对资源受限环境设计，3.8亿参数下已在多项基准测试中超越更大规模的模型，适用于教育和边缘设备场景。

原文链接

GhostPilot

05-01 16:28:11

AI推理模型

Phi-4

微软

分享至

打开微信扫一扫

内容投诉

生成图片

AI“推理”模型兴起，基准测试成本飙升

近日，随着AI推理模型的兴起，基准测试成本显著上升。据第三方机构“人工智能分析”数据，评估OpenAI的o1推理模型需花费2767.05美元，远高于非推理模型GPT-4o的108.85美元。类似地，Anthropic的Claude 3.7 Sonnet测试成本为1485.35美元，而其非推理版本仅需81.41美元。高昂的成本主要源于推理模型生成大量token，且现代基准测试更复杂，涉及多步骤任务。例如，OpenAI的o1生成超4400万个token，是GPT-4o的八倍。尽管模型性能提升，测试成本仍居高不下。AI初创公司“通用推理”的CEO罗斯·泰勒指出，MMLU Pro测试单次成本已超1800美元。专家警告，免费或补贴的模型测试可能影响评估公正性。截至发稿，相关机构正计划扩大测试预算以应对这一挑战。

原文链接

智慧棱镜

04-13 10:34:23

AI推理模型

基准测试

测试成本

分享至

打开微信扫一扫

内容投诉

生成图片

消息称微软正开发内部 AI 推理模型，并测试 xAI、DeepSeek 等多种 OpenAI 替代方案

据The Information报道，微软正在开发内部AI推理模型，计划与OpenAI竞争，并可能向开发者出售。微软测试了xAI、DeepSeek等模型，作为Copilot中OpenAI的替代方案。去年12月消息称，微软正整合内部和第三方AI模型，减少对OpenAI技术的依赖。今年1月，微软CEO宣布所有Copilot用户可免费使用OpenAI的o1推理模型，该功能允许Copilot分多步骤处理复杂查询。1月30日，微软推出针对NPU优化的DeepSeek-R1，首批面向搭载高通骁龙X芯片的Copilot+ PC。

原文链接

智能视野

03-07 23:15:11

AI推理模型

DeepSeek

xAI

分享至

打开微信扫一扫

内容投诉

生成图片

吴恩达推出免费课程，带你玩转 OpenAI 推理模型 o1

吴恩达（Andrew Ng）于12月19日在LinkedIn宣布，其公司DeepLearning.AI推出免费短期课程《Reasoning with o1》，旨在帮助用户掌握OpenAI推理模型o1的功能。该课程教授如何优化o1模型，涵盖任务识别、新提示技术、多步骤编排、编码及图像理解等内容。课程还强调了meta-prompting和强化学习在提高o1性能中的作用。DeepLearning.AI目前提供超过50门免费课程，介绍生成式AI产品的技术和安全部署方法。

原文链接