
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:北大伯克利联手“拷问”大模型:最强Agent也仅40分!新基准专治“不听话”的AI分析师
正文:
给大模型当老师,让它按你的想法一步步做数据分析,有多难?结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,任务成功率最高也只有40%。这项名为IDA-Bench的新基...
原文链接
加载更多

暂无内容