TRUEBench - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

不满现有工具，三星推出自研 AI 性能基准测试工具 TRUEBench

9月25日，三星发布自研AI性能基准测试工具TRUEBench（可信真实场景使用评估基准）。该工具由三星研究院开发，旨在解决现有AI基准测试工具的不足，如仅关注英语和单轮问答结构等问题。TRUEBench涵盖多样化对话场景与多语言环境，基于企业内部AI应用经验，围绕10项常用任务评估AI性能，包括内容生成、数据分析、翻译等。其测试集包含2485组数据，覆盖10大类、46子类及12种语言，任务长度从8字符到20000字符不等。评分体系由AI与人类协作设计，并已在开源平台Hugging Face上线。三星DX部门CTO兼三星研究院院长表示，TRUEBench将确立生产力领域评估标准，巩固三星技术领先地位。

原文链接