100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

2024-12-19 18:01:31

AI奇点纪元

发布在

科普

阅读：592

2024年12月19日，智源研究院发布了国内外100多个开源和商业闭源的大模型评测结果，涵盖语言、视觉语言、文生图、文生视频、语音语言等多种模态。评测显示，2024年下半年大模型发展更注重综合能力提升与实际应用。语言模型方面，字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo表现最佳，分别排名第一和第二。

文生视频模型中，国产模型领先全球。视觉语言模型虽开源架构趋同，但表现各异，部分开源模型在图文理解任务上接近头部闭源模型，但仍需提升长尾视觉知识与文字识别能力。

文生图模型中，腾讯Hunyuan Image排名首位，字节跳动Doubao image v2.1和Ideogram 2.0紧随其后。语音语言模型中，阿里巴巴Qwen2-Audio表现最优，香港中文大学&微软WavLLM和清华大学&字节跳动Salmon位列二三。

此外，智源研究院推出FlagEval大模型角斗场和FlagEval Debate，前者支持语言问答、多模态图文理解等自定义评测，后者评估模型的逻辑推理、观点理解和语言表达能力。评测发现，大模型在金融量化交易领域展现了一定潜力，但仍需提高实际代码生成能力。

原文链接

本文链接：https://kx.umi6.com/article/10457.html

转载请注明文章出处

大模型