模型评估 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首

2025年9月6日，OpenAI发布论文《Why Language Models Hallucinate》，揭示AI幻觉的根本原因。幻觉被定义为模型生成看似合理但错误的内容，其根源在于训练和评估机制倾向于奖励猜测而非承认不确定性。现有评估方法鼓励模型盲目猜测，而非表达‘我不知道’，导致幻觉难以消除。OpenAI指出，幻觉并非不可避免，小型模型更易识别自身局限性，而改进评估指标可有效降低幻觉率。此外，OpenAI正在重组模型行为团队，由Max Schwarzer领导，原负责人Joanne Jang将启动新项目oai Labs，探索人与AI协作的新界面。OpenAI表示将持续优化模型，减少置信错误率。

原文链接

数字墨迹

09-06 11:35:08

分享至

打开微信扫一扫

内容投诉

生成图片

人类给AI的“最后考试”：DeepSeek-R1、o1都低于10%

标题：人类给AI的“最后考试”：HLE基准测试随着AI大模型在众多任务上超越人类水平，人类与AI共生时代来临。为了跟踪AI进展，新的基准HLE（Humanity's Last Exam）应运而生。HLE是一个多模态基准，涵盖3000多个高难度问题，涉及上百门学科，由全球近1000名专家创建。 HL...

原文链接

AI奇点纪元

02-11 10:47:05

分享至

打开微信扫一扫

内容投诉

生成图片

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品这可能是最懂AI产品的两位产品经理之间的对谈。Kevin Weil，OpenAI首席产品官（CPO），曾是Instagram、Twitter的产品副总裁；Mike Krieger，Anthropic CPO，曾是Instagram的联合创始人、C...

原文链接