评测 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

大模型年终观察，如何定义2025年的「好模型」？

2025年AI行业正从“跑分”转向“信任”，开源模型成为默认选择。权威平台OpenRouter数据显示，开源模型的token份额年底突破三分之一，复杂任务调用量飙升至超50%。评测体系从单一分数转向多维评估，Kimi K2 Thinking等模型因性能与成本平衡获关注。部署方面，硬件优化使推理加速10倍、成本降低90%，云端平台实现透明化定价。交付强调治理、可观测与可复现，三大云厂商将顶级模型纳入企业托管服务。行业未来焦点将是可控性、安全性及生产稳定性，信任成为AI商业成功关键。

原文链接

量子黑客

12-22 21:00:44

信任

开源模型

评测

分享至

打开微信扫一扫

内容投诉

生成图片

10家机构共筑具身智能真机评测基石：RoboChallenge组委会正式启航

10家机构共建具身智能评测体系：RoboChallenge组委会正式成立人工智能正从“感知智能”迈向“行动智能”，但如何科学评估机器人在真实场景中的能力，成为行业发展的重要挑战。为解决这一问题，Dexmal原力灵机与Hugging Face联合发起的RoboChallenge项目应运而生，并迅速吸...

原文链接

Nebula

11-20 00:45:49

RoboChallenge

具身智能

真机评测

分享至

打开微信扫一扫

内容投诉

生成图片

北京启动医疗人工智能应用评测服务，验证临床辅助决策能力和效果

11月7日，北京市卫生健康委启动医疗人工智能应用评测服务，聚焦胸外科诊疗领域。评测中心通过多维度考核标准，从医学合规、诊疗准确性等6个核心维度全面验证AI临床辅助决策能力。依托首都高水平医院和专家团队，构建高质量评测数据集，并创新引入基于人工智能的评分机制，确保评测科学公正。评测结果将适时公布，优秀应用优先纳入国家推广渠道。未来，评测服务将覆盖内科、外科、儿科等领域，助力医疗AI产业发展，服务公众健康需求。

原文链接

幻彩逻辑RainbowLogic

11-09 07:17:16

临床辅助决策

医疗人工智能

评测服务

分享至

打开微信扫一扫

内容投诉

生成图片

美团 LongCat 团队发布 Agent 评测基准“VitaBench”，号称“高度贴近真实生活场景”

2025年10月20日，美团LongCat团队发布智能体评测基准VitaBench，号称高度贴近真实生活场景。该基准聚焦外卖点餐、餐厅就餐和旅游出行三大高频场景，构建了包含66个工具的交互式评测环境，并设计跨场景综合任务。例如，在旅游规划中，要求智能体完成从购票到订餐的全过程。团队首次从深度推理、工具使用与用户交互三个维度量化复杂问题，发现领先模型在复杂跨场景任务中的成功率仅30%，揭示现有智能体与实际需求的差距。VitaBench已全面开源，为智能体研发提供基础设施，项目主页、论文、代码及数据集均已公开。

原文链接

代码编织者Nexus

10-20 18:11:29

VitaBench

智能体评测基准

真实生活场景

分享至

打开微信扫一扫

内容投诉

生成图片

国内首个通过主任医师评测的大模型，已在夸克AI搜索上线

7月23日，夸克健康大模型通过中国12门核心学科的主任医师笔试评测，成为国内首个达此成就的大模型。其能力已集成至夸克AI搜索，用户可通过深度搜索调用“主任级AI医生”功能。继5月通过副主任医师考试后，该模型在复杂医学推理任务中表现突出，展现出“慢思考能力”，融合链式推理与临床演绎路径建模。夸克采用“双数据产线+双奖励机制”提升模型可解释性，并获千名专业医师支持，其中超400名为高资历专家。目前，平台吸引200万医学生及医生月活用户，广泛用于备考、诊疗等场景。

原文链接

虚拟微光

07-23 16:52:46

主任医师评测

医学思维

夸克健康大模型

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福临床医疗AI横评，DeepSeek把谷歌OpenAI都秒了

斯坦福临床医疗AI横评：DeepSeek R1以66%胜率夺冠斯坦福最新发布的医疗任务大模型评测显示，DeepSeek R1以66%胜率领先，超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景，而非传统医疗执照考试题。研究团队构建了包含35个基准测试的MedHELM框架，覆盖22...

原文链接

幻彩逻辑RainbowLogic

06-03 17:01:06

DeepSeek

大模型临床评估

斯坦福医疗AI评测

分享至

打开微信扫一扫

内容投诉

生成图片

5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文

标题：5700问答对全面评估拷问AI空间感！最新空间智能评测基准来了丨浙大&成电&港中文正文：杯子在我的左边还是右边？这个对人类来说简单的问题，连GPT-4o这样的视觉语言大模型也可能答错。究其原因，当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角，缺乏...

原文链接

梦境编程师

06-02 14:37:03

AI空间感

ViewSpatial-Bench

空间智能评测基准

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌发布开源 LMEval 框架：打破 AI 模型比较壁垒，降低评测成本和时间

5月26日，谷歌推出开源框架LMEval，旨在解决AI模型评测难题。LMEval为大语言模型和多模态模型提供标准化评测工具，统一API、数据格式和基准设置，大幅简化跨模型比较流程。它兼容Google、OpenAI、Anthropic等多个平台接口，支持文本、图像、代码等多领域基准测试，并能识别模型规避策略。此外，LMEval具备增量评估功能，采用多线程引擎优化效率，降低评测成本与时间。谷歌还推出可视化工具LMEvalboard，用雷达图直观展示模型表现差异。测试结果存储于本地SQLite数据库，兼顾隐私与便捷性。

原文链接

QuantumHacker

05-27 16:20:56

AI模型评测

LMEval

谷歌

分享至

打开微信扫一扫

内容投诉

生成图片

首个AI翻译实战榜单出炉！GPT-4o稳坐天花板，Qwen擅长文化丨开源

首个AI翻译实战榜单出炉！GPT-4o稳坐天花板，Qwen擅长文化与开源 AI翻译哪家强？首个应用型AI翻译测评榜单TransBench在OpenCompass上线，由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学发布。 TransBench新增幻觉率、文化禁忌词、敬语规范等...

原文链接

GhostPilot

05-23 09:47:13

AI翻译

TransBench

评测榜单

分享至

打开微信扫一扫

内容投诉

生成图片

首发全面搭载鸿蒙5！华为Pura X斩获中国电信AI社交、AI学习评测双第一

5月18日消息，华为Pura X凭借出色AI性能在中国电信翼矩AITMark评测中荣获AI社交和AI学习双料冠军。此次评测涵盖AI社交、AI学习、AI影像、AI办公、AI生活五大场景，华为Pura X在AI社交场景（满分70分）获54.5分，在AI学习场景（满分135分）获107.1分。该机是首款全面搭载HarmonyOS 5的手机，支持2万+鸿蒙应用及150多项系统更新，并借助盘古+DeepSeek双模型与方舟引擎提升AI助手小艺的生产力。

原文链接

GhostPilot

05-18 10:19:18

AI评测

华为Pura X

鸿蒙5

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多