谷歌新模型Gemini 1.5 Pro在lmsys竞技场首次夺冠,击败了GPT-4o,成为双冠王,总榜评分高达1300以上,并在视觉排行榜上领先。Gemini团队对此表示庆祝,称此模型为他们制作过的最强大、最聪明的版本。Reddit用户对Gemini 1.5 Pro给予正面评价,期待其功能不被削减。然而,Gemini 1.5 Pro在编码和特定挑战上表现不佳,受到部分网友批评。此外,谷歌推出了Gemini 2系列中的20亿参数模型Gemma 2(2B),并在竞技场排行榜上超越了所有GPT-3.5模型,甚至超越了Mixtral-8x7b。专家们对竞技场的排名权威性提出了质疑,强调MMLU等其他评估方式的重要性。Gemini 1.5 Pro的胜利引发讨论,关于匿名投票排名的可靠性,以及是否应停止使用此类排行榜。
原文链接
本文链接:https://kx.umi6.com/article/4457.html
转载请注明文章出处
相关推荐
换一换
百川智能发布全链路领域增强金融大模型 Baichuan4-Finance,测试成绩领先 GPT-4o
2024-12-23 11:53:01
阿里通义千问开源 Qwen2.5-Coder 全系列模型,号称代码能力追平 GPT-4o
2024-11-12 17:09:55
GPT-4o图像生成今起免费!奥特曼坐镇紧急发布,指令遵循/文本控制表现惊艳
2025-03-26 10:43:57
破译水平接近专家!谷歌AI解读古籍核心错误率仅0.56%
2025-11-16 15:41:31
GPT-4o 系列 AI 模型加持,微软 LlamaParse 文档解析能力全面升级
2024-11-28 14:33:00
OpenAI GPT-4o AI 模型再升级,智能与个性双提升
2025-04-26 14:47:21
研究人员绕过 GPT-4o 模型安全护栏,利用“十六进制字符串”成功令其编写漏洞攻击程序
2024-11-05 14:43:32
库里将利用谷歌AI提升运动表现
2025-08-21 14:39:56
谷歌AI开始抢用户!无需登录就能用了
2025-03-19 17:47:24
谷歌AI一分之差痛失IMO金牌,19秒做一题碾压人类选手,几何AI超进化震撼评委
2024-07-26 13:13:28
GPT-4o当选“最谄媚模型”!斯坦福牛津新基准:所有大模型都在讨好人类
2025-05-23 17:27:40
OpenAI 切断 FoloToy 公司 GPT-4o 访问权限,后者旗下 AI 玩具曾教小孩如何点火柴、谈论性话题
2025-11-18 17:28:08
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
2025-08-01 19:06:23
744 文章
648716 浏览
24小时热文
更多
-
2026-05-30 14:52:41 -
2026-05-30 11:47:09 -
2026-05-30 01:30:47