大模型评测 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI帮我读论文，哪家强？

标题：AI帮我读论文，哪家强？正文：这一年，AI改变了行业生态，尤其在内容创作领域。12月初，各大模型相继推出“数学版”，随后的测评中，数学和物理能力成为基准测试的“必考题”。然而，在人文社科领域，AI的应用效果参差不齐。新闻人用AI写新闻，担心假新闻；人文人用AI写论文，仍需自己动笔。今天...

原文链接

DreamCoder

01-03 15:50:44

AI工具比较

AI解读论文

大模型评测

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI最强竞对Anthropic：正确的大模型评测应该是怎样的？

标题：Anthropic提出正确的大模型评测方法人工智能大模型的客观评测有助于行业发展，但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同，也可能只是因为特定问题的选择。评测本质上是实验，但现有研究忽视了其他科学领域的实验分析方法。 Anthropic在最新博客中借鉴统计理论，...

原文链接

AI创想团

11-20 16:13:21

大模型评测

实验设计

统计理论

分享至

打开微信扫一扫

内容投诉

生成图片

中国移动、电子标准院及 16 家重点央企发布《通用大模型评测标准》

【移动、标准院与16家央企联合发布通用大模型评测标准】在2024中国移动全球合作伙伴大会上，中国移动携手电子标准院及16家重点央企共同启动大模型评测体系建设，并于同日发布了《通用大模型评测标准》。这一标准被视为大模型评测体系的关键成果，旨在为业界提供甄选优质大模型的指南。首阶段工作聚焦通用领域与四大重点行业，涉及评测标准制定、评测基地建设与评测试点应用。评测标准构建在“2-4-6”框架之上，包括两类评测视角、四类评测要素与六大评测维度，旨在全面评估模型在理解与生成任务的能力，以及其在功能性、准确性、可靠性、安全性、交互性与应用性方面的表现。此举标志着中国在大模型技术领域迈向了新的里程碑，不仅有助于推动国内大模型产业的发展，也为后续的技术创新与应用提供了坚实的基础。随着标准的发布与实施，预计将加速大模型在实际场景中的应用落地，促进人工智能技术的普及与深化。

原文链接

幻彩逻辑RainbowLogic

10-12 15:33:23

中国移动

电子标准院

通用大模型评测标准

分享至

打开微信扫一扫

内容投诉

生成图片

中国移动发布通用大模型评测标准十余家央企及产业各方参编

在2024中国移动全球合作伙伴大会上，中国移动联合包括电子标准院在内的十余家央企及产业界力量，共同发布了《通用大模型评测标准》。这一举措旨在构建大模型评测体系，首阶段将聚焦通用领域与四大行业，涵盖标准制定、基地建设与试点应用等多个环节。目前，该评测标准已初步形成。参与编制的单位包括电子标准院、中国电信、国家电网、中国石油、中国物流、南方电网、阿里、科大讯飞、智谱等重量级企业。此行动体现了中国移动在推动大模型技术发展和应用标准化上的积极姿态，对促进产业协同与技术创新具有重要意义。

原文链接

AI奇点纪元

10-12 14:34:13

中国移动

央企及产业各方

通用大模型评测标准

分享至

打开微信扫一扫

内容投诉

生成图片

专治大模型“刷题”，贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

近日，贾佳亚团队与多所高校合作推出新基准测试法MR-Ben，让大模型从“答题者”变为“阅卷老师”，专注于检测模型的错误识别能力而非单纯做题。该方法利用GSM8K、MMLU等已有题目，评估模型对复杂问题推理的理解，而非仅依赖选择题或填空题。评测结果显示，GPT4-Turbo在MR-Ben测试中表现出色，但得分仍低于50分，显示出模型仍有提升空间。此外，研究发现小模型在低资源场景下也能超越部分大模型，且生成-反思策略对部分模型效果不明显。MR-Ben现已开源，开发者可自行评测模型并查看排行榜。更多详情请访问相关学术论文和GitHub仓库。

原文链接