匿名互评 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

卡帕西大模型横评方法太好玩！四大AI匿名参赛评分，最强出乎意料

11月23日，前特斯拉AI总监卡帕西发布了一款名为“大模型议会”（LLM Council）的趣味编程项目。该系统通过调用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等四大AI模型，匿名回答用户问题并互相评分排序，最终由主席模型汇总答案。实验结果显示，GPT-5.1被其他模型一致评为最强，而Claude被认为最弱。卡帕西指出，尽管模型自评与人类主观评价存在差异，但多模型集成方式展现了未来LLM产品的潜力。该项目已在GitHub收获1.8k Stars，引发广泛关注。

原文链接