强化学习微调 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

斯坦福大模型推理课免费开放，谷歌推理团队创始人主讲量子位 | 公众号 QbitAI 干货来了！谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明：只要思维链足够长，T...

原文链接

智能涌动

07-25 17:26:56

大模型推理

强化学习微调

思维链

分享至

打开微信扫一扫

内容投诉

生成图片

AI Agent迈向中央舞台：深度解析2025年进化新格局

2025年，AI Agent发展迅猛。5月6日，OpenAI收购Windsurf，估值达30亿美元；Cursor母公司获9亿美元融资。AI Agent Operator和Deep Research相继推出，受到用户欢迎。专家认为，底层模型能力的提升是AI Agent发展的关键。Cursor和Windsurf因对环境理解深入而脱颖而出，Devin则试图去除IDE限制，构建更精细的操作环境。同时，评价机制（evaluation）的重要性被强调，成为未来AI Agent竞争力的核心。细分领域如Gamma、Vantel等垂直AI Agent展现巨大潜力，但通用型Agent仍需长期积累。业内认为，AI Agent的普及还需解决环境协议MCP的生态渗透及用户需求理解等问题。

原文链接

AI思维矩阵

05-26 20:45:45

AI-Agent

强化学习微调

通用型agent

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 DeepMind 新研究强化思维链训练，让 AI 语言模型不再“纸上谈兵”

5月19日，谷歌DeepMind团队联合约翰·开普勒林茨大学LIT AI实验室发布新研究，通过强化学习微调（RLFT）技术提升AI语言模型的决策能力。传统语言模型虽能推理正确策略，却常因‘知道但做不到’的问题而受限。DeepMind团队创新性地用自生成的思维链作为训练信号，优化推理与行动一致性。在多臂老虎机测试中，2B参数模型动作覆盖率提升12个百分点，20臂环境下频次偏见率从70%降至35%。井字棋实验显示，微调后模型胜率提升5倍，与最优代理的对战回报归零。这项技术有效解决了推理-行动脱节问题，提升了AI的实际应用潜力。

原文链接