
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年10月17日,图灵奖得主Yoshua Bengio联合Center for AI Safety等机构发布论文《A Definition of AGI》,首次为AGI(通用人工智能)制定了量化标准。定义强调AGI需匹配或超越受过良好教育成年人的认知广度与熟练度,并基于心理学的CHC理论设计了涵盖10个核心认知领域的评估体系,满分为100分。测试显示,GPT-4总分为27分,而2025版GPT-5提升至58分,虽进步显著,但仍远未达AGI及格线。AI在知识、读写、数学等领域表现突出,但在视觉、听觉、长时记忆存储等方面存在严重短板。研究剔除外部工具辅助,仅评估AI原生能力,揭示当前AI系统仍为“残次版”智能,距离真正AGI尚有较大差距。
原文链接
9月6日,OpenAI研究人员宣布破解大语言模型的“幻觉”难题,即模型输出不准确信息的问题。研究指出,幻觉源于训练方式偏向奖励猜测而非承认不确定性,导致模型倾向于‘装作知道’而非坦率表达未知。Claude模型因谨慎而减少错误,但高拒答率影响实用性。论文强调,现有评估标准促使模型成为‘考试型选手’,无法应对现实复杂性。解决方法在于重新设计评估体系,抑制乱猜行为,避免因拒答扣分。OpenAI呼吁更新基于准确率的评估方式,防止模型靠侥幸过关。
原文链接
标题:大模型法律推理优势难复制!LEXam评测集引领新标准
大模型推理能力备受关注,但在法律等实际应用领域仍有局限。近日,苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam,涵盖瑞士、欧洲及国际法,包含4886道题目,覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势...
原文链接
中国信通院于2月25日正式启动生成式AI产品和服务的个人信息和用户权益保护专项评估。此次评估主要针对提供智能对话、情感陪伴、智慧办公等服务的生成式AI应用。评估分为保护基础型、保护友好型、保护卓越型三个等级,涵盖32方面能力及114项具体要求。本月早些时候,中国信通院联合多家企业发布了关于生成式AI个人信息保护的八项技术标准。
原文链接
阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM,涵盖72B和7B两种尺寸,性能超越同类开源模型。尤其在7B小尺寸下,其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench,填补了大模型推理过程错误评估的空白。
当前大模型推理过程中常出...
原文链接
OpenAI和Anthropic的首席产品官在Lenny's Podcast频道进行了一场罕见对话,探讨了AI模型的局限性、产品管理的新认知及AI的未来发展。他们认为当前模型的智能并非受限于技术,而是受限于评估方法,并强调编写评估标准将成为产品经理的核心技能。两位高管还谈到了AI产品的发展速度,以及用户如何快速适应AI带来的变化。Anthropic的产品负责人Mike Krieger提到,AI将变得更主动和异步,例如监控邮件、发现趋势等。OpenAI的产品负责人Kevin Weil则强调了模型的推理能力,以及如何通过不同模型的协作提高工作效率。未来,AI将在人机交互方面实现更多创新,如高级语音模式和跨语言交流,这将彻底改变我们使用计算机的方式。
原文链接
加载更多

暂无内容