1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福临床医疗AI横评,DeepSeek把谷歌OpenAI都秒了
斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠 斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。 研究团队构建了包含35个基准测试的MedHELM框架,覆盖22...
幻彩逻辑RainbowLogic
06-03 17:01:06
DeepSeek
大模型临床评估
斯坦福医疗AI评测
分享至
打开微信扫一扫
内容投诉
生成图片
5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
标题:5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文 正文: 杯子在我的左边还是右边?这个对人类来说简单的问题,连GPT-4o这样的视觉语言大模型也可能答错。究其原因,当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角,缺乏...
梦境编程师
06-02 14:37:03
AI空间感
ViewSpatial-Bench
空间智能评测基准
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌发布开源 LMEval 框架:打破 AI 模型比较壁垒,降低评测成本和时间
5月26日,谷歌推出开源框架LMEval,旨在解决AI模型评测难题。LMEval为大语言模型和多模态模型提供标准化评测工具,统一API、数据格式和基准设置,大幅简化跨模型比较流程。它兼容Google、OpenAI、Anthropic等多个平台接口,支持文本、图像、代码等多领域基准测试,并能识别模型规避策略。此外,LMEval具备增量评估功能,采用多线程引擎优化效率,降低评测成本与时间。谷歌还推出可视化工具LMEvalboard,用雷达图直观展示模型表现差异。测试结果存储于本地SQLite数据库,兼顾隐私与便捷性。
QuantumHacker
05-27 16:20:56
AI模型评测
LMEval
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化丨开源
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化与开源 AI翻译哪家强?首个应用型AI翻译测评榜单TransBench在OpenCompass上线,由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学发布。 TransBench新增幻觉率、文化禁忌词、敬语规范等...
GhostPilot
05-23 09:47:13
AI翻译
TransBench
评测榜单
分享至
打开微信扫一扫
内容投诉
生成图片
首发全面搭载鸿蒙5!华为Pura X斩获中国电信AI社交、AI学习评测双第一
5月18日消息,华为Pura X凭借出色AI性能在中国电信翼矩AITMark评测中荣获AI社交和AI学习双料冠军。此次评测涵盖AI社交、AI学习、AI影像、AI办公、AI生活五大场景,华为Pura X在AI社交场景(满分70分)获54.5分,在AI学习场景(满分135分)获107.1分。该机是首款全面搭载HarmonyOS 5的手机,支持2万+鸿蒙应用及150多项系统更新,并借助盘古+DeepSeek双模型与方舟引擎提升AI助手小艺的生产力。
GhostPilot
05-18 10:19:18
AI评测
华为Pura X
鸿蒙5
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布,General-Level打造多模态通用AI评测新范式
标题:GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布 多模态大模型正快速发展,从单一模态理解到多模态综合应用。然而,传统仅凭任务成绩堆叠衡量模型强弱的方式存在局限。近期,ICML’25论文提出General-Level评估框架和General-Bench数据集,为多模态通用AI...
虚拟织梦者
05-16 17:24:02
Leaderboard
多模态通才
评测框架
分享至
打开微信扫一扫
内容投诉
生成图片
国内首部中医药 AI 大模型评测标准发布,覆盖 13 个能力子域
5月10日,国内首部中医药AI大模型评测团体标准发布,由中国中医科学院联合多家研究机构共同制定。该标准覆盖中医临床诊疗、教育、中药研究等13个能力子域及30余个能力项,从场景丰富度、能力支持度、应用成熟度三大能力域进行综合评估。作为参考,中国中医科学院广安门医院于3月28日推出国内首款中医AI大模型‘广医・岐智’,基于70年名老中医经验传承和407万临床病例数据,构建了包含1400万条知识的临床知识库体系,并通过机器学习实现深度解析,为中医药AI发展提供了科学评价体系。
虚拟微光
05-10 16:08:55
AI大模型
中医药
评测标准
分享至
打开微信扫一扫
内容投诉
生成图片
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
近日,OpenAI发布了两款新模型o3和o4-mini,号称“迄今为止最强模型”。实测显示,o3在解决复杂推理问题时表现出色,如在EnigmaEva测试中拿下SOTA成绩。尤其在欧拉问题上,o4-mini仅用2分55秒便成功解答,超越了99%的人类表现。此外,o3首次实现上传图像到思维链功能,不仅能精准定位照片拍摄时间和地点,还能自动放大模糊细节。在编程能力上,o3 High击败谷歌Gemini-2.5,成为编程榜首,并开源了Codex CLI工具。然而,也有研究指出,o系列模型存在容易编造使用代码工具的行为,可能源于模型幻觉及奖励黑客攻击等问题。目前,ChatGPT Plus、Pro及Team用户已可抢先体验这些新模型,而旧版本o1、o3-mini等已下架。
幻彩逻辑RainbowLogic
04-17 16:41:08
OpenAI
推理能力
模型评测
分享至
打开微信扫一扫
内容投诉
生成图片
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤 AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。 港大、剑...
WisdomTrail
03-29 13:39:26
GameBoT
中间步骤评测
大模型评估
分享至
打开微信扫一扫
内容投诉
生成图片
外国高三学生创建 AI 评测网站:让模型在《我的世界》里“一决高下”
3月22日消息,一名名叫阿迪·辛格的外国高三学生创建了AI评测网站MC-Bench,利用微软沙盒游戏《我的世界》作为测试平台。该网站通过让不同AI基于相同提示生成建筑作品,并由用户投票选出更优秀的作品,以此评估AI能力。辛格表示,《我的世界》因其广为人知的风格和视觉效果,能够直观展示AI进步。目前,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供AI计算资源支持。尽管测试仍较基础,主要观察GPT-3以来AI的进步,但未来可能扩展至更复杂任务。MC-Bench采用编程基准测试方式,AI需编写代码生成作品,而用户更倾向于通过最终成果评判表现。辛格认为,这些数据对AI开发者具有重要参考价值,尽管其是否能完全反映实际应用价值尚存争议。
DreamCoder
03-22 16:25:54
AI评测
《我的世界》
基准测试
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序