
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月26日,谷歌推出开源框架LMEval,旨在解决AI模型评测难题。LMEval为大语言模型和多模态模型提供标准化评测工具,统一API、数据格式和基准设置,大幅简化跨模型比较流程。它兼容Google、OpenAI、Anthropic等多个平台接口,支持文本、图像、代码等多领域基准测试,并能识别模型规避策略。此外,LMEval具备增量评估功能,采用多线程引擎优化效率,降低评测成本与时间。谷歌还推出可视化工具LMEvalboard,用雷达图直观展示模型表现差异。测试结果存储于本地SQLite数据库,兼顾隐私与便捷性。
原文链接
近日,OpenAI发布了两款新模型o3和o4-mini,号称“迄今为止最强模型”。实测显示,o3在解决复杂推理问题时表现出色,如在EnigmaEva测试中拿下SOTA成绩。尤其在欧拉问题上,o4-mini仅用2分55秒便成功解答,超越了99%的人类表现。此外,o3首次实现上传图像到思维链功能,不仅能精准定位照片拍摄时间和地点,还能自动放大模糊细节。在编程能力上,o3 High击败谷歌Gemini-2.5,成为编程榜首,并开源了Codex CLI工具。然而,也有研究指出,o系列模型存在容易编造使用代码工具的行为,可能源于模型幻觉及奖励黑客攻击等问题。目前,ChatGPT Plus、Pro及Team用户已可抢先体验这些新模型,而旧版本o1、o3-mini等已下架。
原文链接
ModelScope魔搭社区推出GRPO训练全链路解决方案,支持多模态训练、训练加速和评测。GRPO是PPO算法的一种改进,旨在简化价值模型,提高训练稳定性和可维护性。然而,现有方案面临训练速度低、集群配置复杂等问题。
魔搭社区的SWIFT框架优化了采样效率,通过多实例数据并行采样和异步采样技术,提...
原文链接
标题:AI帮我读论文,哪家强?
正文:
这一年,AI改变了行业生态,尤其在内容创作领域。12月初,各大模型相继推出“数学版”,随后的测评中,数学和物理能力成为基准测试的“必考题”。
然而,在人文社科领域,AI的应用效果参差不齐。新闻人用AI写新闻,担心假新闻;人文人用AI写论文,仍需自己动笔。
今天...
原文链接
12月19日,北京智源研究院发布了对国内外100多个语言、视觉语言、文生图、文生视频、语音语言大模型的综合及专项评测结果。评测显示,文生视频模型在画质、动态性和镜头语言方面有显著提升,但普遍存在大幅度动作变形的问题,无法准确理解物理规律,常出现物体消失、闪现或穿模的现象。评测排名前五的模型分别为快手可灵1.5(高品质)、字节跳动即梦P2.0pro、爱诗科技PixVerseV3、MiniMax海螺AI和Pika1.5。此评测揭示了当前文生视频模型的技术进展与局限性。
原文链接
标题:Anthropic提出正确的大模型评测方法
人工智能大模型的客观评测有助于行业发展,但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同,也可能只是因为特定问题的选择。评测本质上是实验,但现有研究忽视了其他科学领域的实验分析方法。
Anthropic在最新博客中借鉴统计理论,...
原文链接
【移动、标准院与16家央企联合发布通用大模型评测标准】
在2024中国移动全球合作伙伴大会上,中国移动携手电子标准院及16家重点央企共同启动大模型评测体系建设,并于同日发布了《通用大模型评测标准》。这一标准被视为大模型评测体系的关键成果,旨在为业界提供甄选优质大模型的指南。首阶段工作聚焦通用领域与四大重点行业,涉及评测标准制定、评测基地建设与评测试点应用。评测标准构建在“2-4-6”框架之上,包括两类评测视角、四类评测要素与六大评测维度,旨在全面评估模型在理解与生成任务的能力,以及其在功能性、准确性、可靠性、安全性、交互性与应用性方面的表现。
此举标志着中国在大模型技术领域迈向了新的里程碑,不仅有助于推动国内大模型产业的发展,也为后续的技术创新与应用提供了坚实的基础。随着标准的发布与实施,预计将加速大模型在实际场景中的应用落地,促进人工智能技术的普及与深化。
原文链接
在2024中国移动全球合作伙伴大会上,中国移动联合包括电子标准院在内的十余家央企及产业界力量,共同发布了《通用大模型评测标准》。这一举措旨在构建大模型评测体系,首阶段将聚焦通用领域与四大行业,涵盖标准制定、基地建设与试点应用等多个环节。目前,该评测标准已初步形成。参与编制的单位包括电子标准院、中国电信、国家电网、中国石油、中国物流、南方电网、阿里、科大讯飞、智谱等重量级企业。此行动体现了中国移动在推动大模型技术发展和应用标准化上的积极姿态,对促进产业协同与技术创新具有重要意义。
原文链接
近日,贾佳亚团队与多所高校合作推出新基准测试法MR-Ben,让大模型从“答题者”变为“阅卷老师”,专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目,评估模型对复杂问题推理的理解,而非仅依赖选择题或填空题。评测结果显示,GPT4-Turbo在MR-Ben测试中表现出色,但得分仍低于50分,显示出模型仍有提升空间。此外,研究发现小模型在低资源场景下也能超越部分大模型,且生成-反思策略对部分模型效果不明显。MR-Ben现已开源,开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。
原文链接
加载更多

暂无内容