
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠
斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。
研究团队构建了包含35个基准测试的MedHELM框架,覆盖22...
原文链接
标题:5700问答对全面评估拷问AI空间感!最新空间智能评测基准来了丨浙大&成电&港中文
正文:
杯子在我的左边还是右边?这个对人类来说简单的问题,连GPT-4o这样的视觉语言大模型也可能答错。究其原因,当前VLM在大规模图文数据中学习到的空间信息多为片段化且局限于静态视角,缺乏...
原文链接
5月26日,谷歌推出开源框架LMEval,旨在解决AI模型评测难题。LMEval为大语言模型和多模态模型提供标准化评测工具,统一API、数据格式和基准设置,大幅简化跨模型比较流程。它兼容Google、OpenAI、Anthropic等多个平台接口,支持文本、图像、代码等多领域基准测试,并能识别模型规避策略。此外,LMEval具备增量评估功能,采用多线程引擎优化效率,降低评测成本与时间。谷歌还推出可视化工具LMEvalboard,用雷达图直观展示模型表现差异。测试结果存储于本地SQLite数据库,兼顾隐私与便捷性。
原文链接
首个AI翻译实战榜单出炉!GPT-4o稳坐天花板,Qwen擅长文化与开源
AI翻译哪家强?首个应用型AI翻译测评榜单TransBench在OpenCompass上线,由阿里国际AI Business团队联合上海人工智能实验室、北京语言大学发布。
TransBench新增幻觉率、文化禁忌词、敬语规范等...
原文链接
5月18日消息,华为Pura X凭借出色AI性能在中国电信翼矩AITMark评测中荣获AI社交和AI学习双料冠军。此次评测涵盖AI社交、AI学习、AI影像、AI办公、AI生活五大场景,华为Pura X在AI社交场景(满分70分)获54.5分,在AI学习场景(满分135分)获107.1分。该机是首款全面搭载HarmonyOS 5的手机,支持2万+鸿蒙应用及150多项系统更新,并借助盘古+DeepSeek双模型与方舟引擎提升AI助手小艺的生产力。
原文链接
标题:GPT-4V仅达Level-2?全球首个多模态通才段位排行榜发布
多模态大模型正快速发展,从单一模态理解到多模态综合应用。然而,传统仅凭任务成绩堆叠衡量模型强弱的方式存在局限。近期,ICML’25论文提出General-Level评估框架和General-Bench数据集,为多模态通用AI...
原文链接
5月10日,国内首部中医药AI大模型评测团体标准发布,由中国中医科学院联合多家研究机构共同制定。该标准覆盖中医临床诊疗、教育、中药研究等13个能力子域及30余个能力项,从场景丰富度、能力支持度、应用成熟度三大能力域进行综合评估。作为参考,中国中医科学院广安门医院于3月28日推出国内首款中医AI大模型‘广医・岐智’,基于70年名老中医经验传承和407万临床病例数据,构建了包含1400万条知识的临床知识库体系,并通过机器学习实现深度解析,为中医药AI发展提供了科学评价体系。
原文链接
近日,OpenAI发布了两款新模型o3和o4-mini,号称“迄今为止最强模型”。实测显示,o3在解决复杂推理问题时表现出色,如在EnigmaEva测试中拿下SOTA成绩。尤其在欧拉问题上,o4-mini仅用2分55秒便成功解答,超越了99%的人类表现。此外,o3首次实现上传图像到思维链功能,不仅能精准定位照片拍摄时间和地点,还能自动放大模糊细节。在编程能力上,o3 High击败谷歌Gemini-2.5,成为编程榜首,并开源了Codex CLI工具。然而,也有研究指出,o系列模型存在容易编造使用代码工具的行为,可能源于模型幻觉及奖励黑客攻击等问题。目前,ChatGPT Plus、Pro及Team用户已可抢先体验这些新模型,而旧版本o1、o3-mini等已下架。
原文链接
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑...
原文链接
3月22日消息,一名名叫阿迪·辛格的外国高三学生创建了AI评测网站MC-Bench,利用微软沙盒游戏《我的世界》作为测试平台。该网站通过让不同AI基于相同提示生成建筑作品,并由用户投票选出更优秀的作品,以此评估AI能力。辛格表示,《我的世界》因其广为人知的风格和视觉效果,能够直观展示AI进步。目前,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供AI计算资源支持。尽管测试仍较基础,主要观察GPT-3以来AI的进步,但未来可能扩展至更复杂任务。MC-Bench采用编程基准测试方式,AI需编写代码生成作品,而用户更倾向于通过最终成果评判表现。辛格认为,这些数据对AI开发者具有重要参考价值,尽管其是否能完全反映实际应用价值尚存争议。
原文链接
加载更多

暂无内容