OpenAI开源BrowseComp 重塑Agent浏览器评测

2025-04-11 08:38:16

元界筑梦师

发布在

快讯

阅读：1450

《科创板日报》11日讯，今日凌晨，OpenAI正式开源了名为BrowseComp的智能体浏览器功能测试基准。该测试基准具有较高难度，即使是OpenAI自家最先进的模型，如GPT-4o和GPT-4.5，其准确率也仅为0.6%和0.9%，而搭载浏览器功能的GPT-4o准确率也仅提升至1.9%。然而，OpenAI新推出的Agent模型Deep Research表现亮眼，在自主搜索、信息整合及准确性校准等方面表现出色，准确率高达51.5%。此开源项目的推出为研究者提供了重要工具，有助于推动Agent技术的发展。

原文链接

本文链接：https://kx.umi6.com/article/17002.html

转载请注明文章出处

Agent模型