蒙特卡洛树搜索

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

图灵奖得主加持，蒙特卡洛树搜索×扩散模型杀回规划赛道｜ICML 2025 Spotlight

标题：图灵奖得主加持，蒙特卡洛树搜索×扩散模型杀回规划赛道｜ICML 2025 Spotlight 一个简单的迷宫导航任务，却让许多模型“原形毕露”。Diffuser和Diffusion Forcing在测试中表现糟糕，通关率极低。而一种全新方法——蒙特卡洛树扩散（Monte Carlo Tre...

原文链接

智慧轨迹

08-01 14:00:21

扩散模型

蒙特卡洛树搜索

长程规划

分享至

打开微信扫一扫

内容投诉

生成图片

重大突破！微软发布“自我进化”，帮小模型超OpenAI-o1

微软亚洲研究院发布创新算法rStar-Math，通过代码增强CoT和蒙特卡洛树搜索，使小参数模型无需依赖大型模型蒸馏即可实现自我进化。在美国数学竞赛AIME 2024中，rStar-Math平均解决了53.3%的难题，超过OpenAI o1-preview的44.6%。在MATH基准测试中，rStar-Math显著提高了阿里开源模型Qwen2.5-Math的准确率。该算法通过四轮自我进化，结合PPM、MCTS和代码增强CoT，大幅提升了模型的数学推理能力。这表明小模型在创新算法和高质量数据支持下，可媲美甚至超越大型模型。

原文链接

智慧轨迹

01-13 10:50:38

rStar-Math

代码增强CoT

蒙特卡洛树搜索

分享至

打开微信扫一扫

内容投诉

生成图片

微软 rStar-Math 技术登场：小语言 AI 模型数学推理从“不及格”一跃成为“优等生”

1月10日，微软亚洲研究院发布rStar-Math技术，该技术专用于解决数学问题，采用蒙特卡洛树搜索方法。研究人员通过训练“策略模型”和“过程偏好模型”，提升了小语言AI模型的数学推理能力。测试显示，Qwen2.5-Math-7B模型准确率从58.8%提升至90.0%，Phi3-mini-3.8B模型从41.4%提升至86.4%，优于OpenAI的o1-preview模型。研究团队计划在GitHub上公开rStar-Math的代码和数据。

原文链接

数码游侠

01-11 12:39:34

rStar-Math

数学推理

蒙特卡洛树搜索

分享至

打开微信扫一扫

内容投诉

生成图片

北交开源 o1 代码版：强化学习 + 蒙特卡洛树搜索，放出源代码、精选数据集以及衍生模型

北京交通大学研究团队发布了O1-CODER，一款专注于编码任务的开源模型。该模型结合了强化学习（RL）与蒙特卡洛树搜索（MCTS），旨在提升代码生成的质量。研究发现，基于伪代码的推理显著提高了代码生成质量，并且结合监督微调（SFT）与直接偏好优化（DPO）提升了测试用例生成效果。此外，自我对弈强化学习机制通过生成标准化的测试用例和过程奖励数据，实现了策略模型的持续优化。实验结果显示，经过优化后的模型在MBPP数据集上的平均采样通过率显著提升。

原文链接

AI奇点纪元

12-09 13:27:10

开源代码

强化学习

蒙特卡洛树搜索

分享至

打开微信扫一扫

内容投诉

生成图片

Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

标题：Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式正文：复刻OpenAI o1推理大模型，开源界迎来最新进展：LLaMA版o1项目刚由上海AI Lab团队发布。该项目简介中明确提到，使用了蒙特卡洛树搜索、Self-Play强化学习、PPO算法及...

原文链接