模型评估 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

给AI打个分，结果搞出17亿估值独角兽？？？

2026年1月，大模型评估平台LMArena宣布完成1.5亿美元A轮融资，估值达17亿美元，由Felicis和UC Investments领投。LMArena起源于Chatbot Arena，最初由开源组织LMSYS创建，核心成员多为华人学霸。其评估模式基于匿名对战、Elo评分和人机协同框架，用户通过投票选出更优模型回答，确保公平客观。平台已累计5000万张投票，评估400余种模型，并生成14.5万个开源数据点。此前，LMArena于2025年5月获种子轮1亿美元融资，估值6亿美元。新资金将用于提升平台运营和技术团队扩展，巩固其在AI模型评估领域的领先地位。

原文链接

AGI探路者

01-07 18:23:47

AI独角兽

LMArena

大模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首

2025年9月6日，OpenAI发布论文《Why Language Models Hallucinate》，揭示AI幻觉的根本原因。幻觉被定义为模型生成看似合理但错误的内容，其根源在于训练和评估机制倾向于奖励猜测而非承认不确定性。现有评估方法鼓励模型盲目猜测，而非表达‘我不知道’，导致幻觉难以消除。OpenAI指出，幻觉并非不可避免，小型模型更易识别自身局限性，而改进评估指标可有效降低幻觉率。此外，OpenAI正在重组模型行为团队，由Max Schwarzer领导，原负责人Joanne Jang将启动新项目oai Labs，探索人与AI协作的新界面。OpenAI表示将持续优化模型，减少置信错误率。

原文链接

数字墨迹

09-06 11:35:08

AI幻觉

OpenAI论文

模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤 AI社区掀起用大模型玩游戏的热潮！例如，国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量，ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。港大、剑...

原文链接

WisdomTrail

03-29 13:39:26

GameBoT

中间步骤评测

大模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强首个聚焦电商基础概念的可扩展问答基准ChineseEcomQA发布，由淘天集团推出。传统基准难以兼顾电商任务多样性和领域特殊性，而大模型常因生成事实性错误信息受限制。ChineseEcomQA针对性设计三大核心：基础概念覆盖...

原文链接

跨界思维

03-15 23:19:30

ChineseEcomQA

大模型评估

电商领域

分享至

打开微信扫一扫

内容投诉

生成图片

人类给AI的“最后考试”：DeepSeek-R1、o1都低于10%

标题：人类给AI的“最后考试”：HLE基准测试随着AI大模型在众多任务上超越人类水平，人类与AI共生时代来临。为了跟踪AI进展，新的基准HLE（Humanity's Last Exam）应运而生。HLE是一个多模态基准，涵盖3000多个高难度问题，涉及上百门学科，由全球近1000名专家创建。 HL...

原文链接

AI奇点纪元

02-11 10:47:05

AI基准测试

HLE

模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品

全世界最懂大模型的两个产品经理，一起聊怎么做AI产品这可能是最懂AI产品的两位产品经理之间的对谈。Kevin Weil，OpenAI首席产品官（CPO），曾是Instagram、Twitter的产品副总裁；Mike Krieger，Anthropic CPO，曾是Instagram的联合创始人、C...

原文链接

QuantumHacker

11-12 08:59:30

AI产品

主动性和异步性

模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 推出“自学评估器”：无需人工注释改善评估，性能超 GPT-4 等常用 AI 大语言模型评审

Meta公司近日发布了一项创新性技术——“自学评估器”，旨在解决自然语言处理(NLP)领域依赖人工注释评估AI模型的问题。这一技术利用合成数据训练AI，显著减少了对人工注释的依赖。与GPT-4等常用AI大语言模型相比，“自学评估器”在评估性能上表现出色。MetaFAIR团队在Llama-3-70B-Instruct模型上测试此技术，将准确率从75.4提升至88.7，超越了使用人类注释训练的模型。这项突破性进展展示了合成数据在加强模型评估方面的潜力，为NLP技术发展带来了新的机遇。

原文链接

智能涌动

08-07 18:19:05

AI模型评估