综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,蚂蚁健康与北京大学人民医院王俊院士团队联合发布了全球首个专病循证评测框架GAPS(Grounding, Adequacy, Perturbation, Safety),聚焦肺癌领域,包含92个问题和1691个临床要点。该框架通过全自动化的评测工具链,首次系统评估AI医疗模型的循证决策能力、回答完备性、鲁棒性与安全性,填补了现有医疗AI评测的空白。研究显示,主流大模型在事实记忆上表现优异,但在不确定性推理和临床完备性方面存在明显短板。GAPS为医疗AI从“技术驱动”向“临床价值驱动”转型提供了重要标准,其评测集与自动化框架已全面公开,未来可扩展至心血管、儿科等更多专科领域。论文与相关资源已在arXiv和Hugging Face平台发布。
原文链接
斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠
斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。
研究团队构建了包含35个基准测试的MedHELM框架,覆盖22...
原文链接
5月18日消息,华为Pura X凭借出色AI性能在中国电信翼矩AITMark评测中荣获AI社交和AI学习双料冠军。此次评测涵盖AI社交、AI学习、AI影像、AI办公、AI生活五大场景,华为Pura X在AI社交场景(满分70分)获54.5分,在AI学习场景(满分135分)获107.1分。该机是首款全面搭载HarmonyOS 5的手机,支持2万+鸿蒙应用及150多项系统更新,并借助盘古+DeepSeek双模型与方舟引擎提升AI助手小艺的生产力。
原文链接
3月22日消息,一名名叫阿迪·辛格的外国高三学生创建了AI评测网站MC-Bench,利用微软沙盒游戏《我的世界》作为测试平台。该网站通过让不同AI基于相同提示生成建筑作品,并由用户投票选出更优秀的作品,以此评估AI能力。辛格表示,《我的世界》因其广为人知的风格和视觉效果,能够直观展示AI进步。目前,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供AI计算资源支持。尽管测试仍较基础,主要观察GPT-3以来AI的进步,但未来可能扩展至更复杂任务。MC-Bench采用编程基准测试方式,AI需编写代码生成作品,而用户更倾向于通过最终成果评判表现。辛格认为,这些数据对AI开发者具有重要参考价值,尽管其是否能完全反映实际应用价值尚存争议。
原文链接
加载更多
暂无内容