
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:大模型法律推理优势难复制!LEXam评测集引领新标准
大模型推理能力备受关注,但在法律等实际应用领域仍有局限。近日,苏黎世联邦理工学院等机构发布全新法律推理基准数据集LEXam,涵盖瑞士、欧洲及国际法,包含4886道题目,覆盖本科至硕士水平的法律考试。该数据集在Hugging Face趋势...
原文链接
中国信通院于2月25日正式启动生成式AI产品和服务的个人信息和用户权益保护专项评估。此次评估主要针对提供智能对话、情感陪伴、智慧办公等服务的生成式AI应用。评估分为保护基础型、保护友好型、保护卓越型三个等级,涵盖32方面能力及114项具体要求。本月早些时候,中国信通院联合多家企业发布了关于生成式AI个人信息保护的八项技术标准。
原文链接
阿里云通义开源全新数学推理过程奖励模型Qwen2.5-Math-PRM,涵盖72B和7B两种尺寸,性能超越同类开源模型。尤其在7B小尺寸下,其识别推理错误的能力超过GPT-4o。通义团队还开源了首个步骤级评估标准ProcessBench,填补了大模型推理过程错误评估的空白。
当前大模型推理过程中常出...
原文链接
OpenAI和Anthropic的首席产品官在Lenny's Podcast频道进行了一场罕见对话,探讨了AI模型的局限性、产品管理的新认知及AI的未来发展。他们认为当前模型的智能并非受限于技术,而是受限于评估方法,并强调编写评估标准将成为产品经理的核心技能。两位高管还谈到了AI产品的发展速度,以及用户如何快速适应AI带来的变化。Anthropic的产品负责人Mike Krieger提到,AI将变得更主动和异步,例如监控邮件、发现趋势等。OpenAI的产品负责人Kevin Weil则强调了模型的推理能力,以及如何通过不同模型的协作提高工作效率。未来,AI将在人机交互方面实现更多创新,如高级语音模式和跨语言交流,这将彻底改变我们使用计算机的方式。
原文链接
加载更多

暂无内容