2024年12月19日,智源研究院发布了国内外100多个开源和商业闭源的大模型评测结果,涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态。评测显示,2024年下半年大模型发展更注重综合能力提升与实际应用。语言模型方面,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo表现最佳,分别排名第一和第二。
文生视频模型中,国产模型领先全球。视觉语言模型虽开源架构趋同,但表现各异,部分开源模型在图文理解任务上接近头部闭源模型,但仍需提升长尾视觉知识与文字识别能力。
文生图模型中,腾讯Hunyuan Image排名首位,字节跳动Doubao image v2.1和Ideogram 2.0紧随其后。语音语言模型中,阿里巴巴Qwen2-Audio表现最优,香港中文大学&微软WavLLM和清华大学&字节跳动Salmon位列二三。
此外,智源研究院推出FlagEval大模型角斗场和FlagEval Debate,前者支持语言问答、多模态图文理解等自定义评测,后者评估模型的逻辑推理、观点理解和语言表达能力。评测发现,大模型在金融量化交易领域展现了一定潜力,但仍需提高实际代码生成能力。
原文链接
本文链接:https://kx.umi6.com/article/10457.html
转载请注明文章出处
相关推荐
换一换
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
宇树科技王兴兴:谁能把机器人用的大模型做出来 谁就是全世界最厉害的AI公司和机器人公司
2026-01-30 12:25:48
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
月之暗面 Kimi 创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到 K100
2026-01-12 09:22:11
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
Gemini 逆风翻盘的18个关键
2025-11-27 17:46:16
郑州:在医疗、教育、物流、防灾减灾等领域打造一批大模型典型示范 形成“AI+千行百业”全场景体系
2026-05-09 20:36:41
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
百度新设两个大模型研发部:直接向CEO李彦宏汇报!
2025-11-25 22:10:22
杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了
2026-03-27 23:23:11
智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了
2026-03-31 21:04:07
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
747 文章
656039 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13