
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福临床医疗AI横评:DeepSeek R1以66%胜率夺冠
斯坦福最新发布的医疗任务大模型评测显示,DeepSeek R1以66%胜率领先,超越谷歌、OpenAI等知名模型。此次评测聚焦临床医生日常场景,而非传统医疗执照考试题。
研究团队构建了包含35个基准测试的MedHELM框架,覆盖22...
原文链接
5月18日消息,华为Pura X凭借出色AI性能在中国电信翼矩AITMark评测中荣获AI社交和AI学习双料冠军。此次评测涵盖AI社交、AI学习、AI影像、AI办公、AI生活五大场景,华为Pura X在AI社交场景(满分70分)获54.5分,在AI学习场景(满分135分)获107.1分。该机是首款全面搭载HarmonyOS 5的手机,支持2万+鸿蒙应用及150多项系统更新,并借助盘古+DeepSeek双模型与方舟引擎提升AI助手小艺的生产力。
原文链接
3月22日消息,一名名叫阿迪·辛格的外国高三学生创建了AI评测网站MC-Bench,利用微软沙盒游戏《我的世界》作为测试平台。该网站通过让不同AI基于相同提示生成建筑作品,并由用户投票选出更优秀的作品,以此评估AI能力。辛格表示,《我的世界》因其广为人知的风格和视觉效果,能够直观展示AI进步。目前,Anthropic、谷歌、OpenAI和阿里巴巴为该项目提供AI计算资源支持。尽管测试仍较基础,主要观察GPT-3以来AI的进步,但未来可能扩展至更复杂任务。MC-Bench采用编程基准测试方式,AI需编写代码生成作品,而用户更倾向于通过最终成果评判表现。辛格认为,这些数据对AI开发者具有重要参考价值,尽管其是否能完全反映实际应用价值尚存争议。
原文链接
加载更多

暂无内容