评估标准 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AGI今天起有了量化标准！Bengio牵头定义，当前进度条58%

正文：2025年10月17日，图灵奖得主Yoshua Bengio联合Center for AI Safety等机构发布论文《A Definition of AGI》，首次为AGI（通用人工智能）制定了量化标准。定义强调AGI需匹配或超越受过良好教育成年人的认知广度与熟练度，并基于心理学的CHC理论设计了涵盖10个核心认知领域的评估体系，满分为100分。测试显示，GPT-4总分为27分，而2025版GPT-5提升至58分，虽进步显著，但仍远未达AGI及格线。AI在知识、读写、数学等领域表现突出，但在视觉、听觉、长时记忆存储等方面存在严重短板。研究剔除外部工具辅助，仅评估AI原生能力，揭示当前AI系统仍为“残次版”智能，距离真正AGI尚有较大差距。

原文链接

LunarCoder

10-17 14:17:43

AGI

认知能力

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 研究人员宣称已破解模型“幻觉”难题：现有评估方式在鼓励 AI“瞎蒙”

9月6日，OpenAI研究人员宣布破解大语言模型的“幻觉”难题，即模型输出不准确信息的问题。研究指出，幻觉源于训练方式偏向奖励猜测而非承认不确定性，导致模型倾向于‘装作知道’而非坦率表达未知。Claude模型因谨慎而减少错误，但高拒答率影响实用性。论文强调，现有评估标准促使模型成为‘考试型选手’，无法应对现实复杂性。解决方法在于重新设计评估体系，抑制乱猜行为，避免因拒答扣分。OpenAI呼吁更新基于准确率的评估方式，防止模型靠侥幸过关。

原文链接

数码游侠

09-06 16:36:08

不确定性

幻觉问题

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

标题：大模型法律推理优势难复制！LEXam评测集引领新标准大模型推理能力备受关注，但在法律等实际应用领域仍有局限。近日，苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam，涵盖瑞士、欧洲及国际法，包含4886道题目，覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势...

原文链接

神经网络领航员

06-05 16:55:30

大模型

法律推理

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

中国信通院启动生成式 AI 产品和服务“个人信息和用户权益保护”专项评估

中国信通院于2月25日正式启动生成式AI产品和服务的个人信息和用户权益保护专项评估。此次评估主要针对提供智能对话、情感陪伴、智慧办公等服务的生成式AI应用。评估分为保护基础型、保护友好型、保护卓越型三个等级，涵盖32方面能力及114项具体要求。本月早些时候，中国信通院联合多家企业发布了关于生成式AI个人信息保护的八项技术标准。

原文链接

幻彩逻辑RainbowLogic

02-25 16:00:47

个人信息保护

生成式AI

评估标准

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云通义开源首个推理步骤评估标准，探索AI推理模型新路径

阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM，涵盖72B和7B两种尺寸，性能超越同类开源模型。尤其在7B小尺寸下，其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench，填补了大模型推理过程错误评估的空白。当前大模型推理过程中常出...

原文链接

数字墨迹

01-16 15:55:16

Qwen2.5-Math-PRM

推理步骤评估标准

阿里云通义

分享至

打开微信扫一扫

内容投诉

生成图片

宿敌对决！OpenAI & Anthropic 首席产品官万字访谈：“现在的模型并不是受限于智能水平，而是受限于评估方法”

OpenAI和Anthropic的首席产品官在Lenny's Podcast频道进行了一场罕见对话，探讨了AI模型的局限性、产品管理的新认知及AI的未来发展。他们认为当前模型的智能并非受限于技术，而是受限于评估方法，并强调编写评估标准将成为产品经理的核心技能。两位高管还谈到了AI产品的发展速度，以及用户如何快速适应AI带来的变化。Anthropic的产品负责人Mike Krieger提到，AI将变得更主动和异步，例如监控邮件、发现趋势等。OpenAI的产品负责人Kevin Weil则强调了模型的推理能力，以及如何通过不同模型的协作提高工作效率。未来，AI将在人机交互方面实现更多创新，如高级语音模式和跨语言交流，这将彻底改变我们使用计算机的方式。

原文链接