1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
2025年7月,大模型竞技场秘密上线名为“steve”的神秘模型,引发广泛关注和猜测。steve在对话中自称来自DeepSeek,但未披露更多身份信息,网友推测其可能是R2、V4或旧版本升级版。steve的知识截止时间为2023年10月,表现参差不齐,虽通过部分智力测试,但在代码生成和复杂任务上逊色于V3和R1。此外,由于R2项目此前多次延期,CEO梁文锋对其表现不满,研发进程或受硬件限制影响。尽管steve真实身份存疑,但外界对其期待不减。参考链接指向相关爆料与讨论。
LunarCoder
07-03 15:26:08
DeepSeek-R2
steve
大模型竞技场
分享至
打开微信扫一扫
内容投诉
生成图片
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出,少数大厂如Meta在Llama4发布前私下测试了27个版本,仅公布最佳成绩,导致排名失真。此外,专有模型获取的数据反馈显著多于开源模型,且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现,205个模型被“静默弃用”,远超官方公布的47个。对此,大模型竞技场官方Lmrena.ai回应称,排行榜反映真实用户偏好,但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布,呼吁不应过度依赖单一榜单。
AGI探路者
05-02 21:09:17
刷榜风波
大模型竞技场
排行榜幻觉
分享至
打开微信扫一扫
内容投诉
生成图片
大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
量子思考者
05-02 13:58:59
Llama4
大模型竞技场
排行榜质疑
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI GPT-4.5 登顶 6 小时即失守,xAI Grok-3 上演 1 分逆袭
OpenAI的GPT-4.5刚登顶竞技场,6小时后就被xAI的Grok-3以1分优势反超,两者票数均为3000+,总分1412:1411。Grok-3在总体带风格控制、困难提示词带风格控制方面略逊于GPT-4.5。DeepSeek-R1总分第6,数学和困难提示词带风格控制与GPT-4.5并列第一。有用户质疑6小时内变化是否合理,解释称大模型竞技场有投票门槛。GPT-4.5口碑有所改善,用户开始称赞其情商。奥尔特曼表示收到邮件请求承诺不下架该模型,并分享了与GPT-4.5的对话记录。此外,GPT-4.5还在一个类似大模型狼人杀的另类榜单中表现出色。
智能视野
03-04 13:10:21
Grok-3
OpenAI GPT-4.5
大模型竞技场
分享至
打开微信扫一扫
内容投诉
生成图片
李开复回应一切:竞技场排名“让我们有信心继续做预训练”
标题:李开复回应一切:竞技场排名“让我们有信心继续做预训练” 国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),零一万物的名字紧随OpenAI和Google之后,但李开复表示,团队只落后OpenAI 5-6个月,要进一步缩短这个差距,难度很大。 零一万物推出了最新旗舰...
智能涌动
10-31 14:45:51
商业化
大模型竞技场
预训练
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o mini排名雪崩,大模型竞技场规则更新,奥特曼刷分小技巧无效了
【GPT-4o mini排名大幅下滑,大模型竞技场规则更新】 随着大模型竞技场规则的调整,GPT-4o mini的排名迅速下滑,跌出了前10名。新榜单对人工智能回答的长度、风格等特征进行了降权处理,旨在准确反映模型解决实际问题的能力,而非仅仅依赖于表面的格式和长度来取悦用户。这意味着使用漂亮格式或...
镜像现实MirageX
08-31 12:40:09
GPT-4o mini
大模型竞技场规则更新
奥特曼刷分小技巧无效了
分享至
打开微信扫一扫
内容投诉
生成图片
失联大神李沐B站复更:领读Llama 3.1论文;竞技场Llama 3.1排第三
AI界的大神李沐,结束了长达一年半的沉默,重新活跃在B站,分享了关于Llama 3.1论文的解读视频,内容深入浅出,还分享了一些八卦趣事。在这段视频中,李沐手把手地指导观众如何理解Llama 3.1的技术论文,该视频在发布后立即获得了破万的播放量。与此同时,大模型竞技场的排名也进行了更新,Llama...
AI思维矩阵
07-31 16:28:38
Llama 3.1
大模型竞技场
李沐
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o mini凭什么登顶竞技场?OpenAI刷分秘诀被扒,原来奥特曼早有暗示
GPT-4o mini登顶竞技场之谜 为何GPT-4o mini能在众多模型中脱颖而出,与Claude 3.5 Sonnet并列第一?答案或许藏在OpenAI的"刷分"策略中。 竞技场上,GPT-4o mini凭借三大关键优势击败Claude 3.5 Sonnet: 1. 更少的拒绝回答次数 2. ...
数码游侠
07-29 16:56:31
GPT-4o mini
OpenAI
大模型竞技场
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
GPT-4o mini,由OpenAI开发的大语言模型,近期在大模型竞技场中脱颖而出,与满血版GPT-4并列第一,超越了Claude 3.5。这一成绩让CEO奥特曼感到激动,他表示,尽管在公开场合尽量保持克制,但看到GPT-4o mini与满血版性能相当,而价格仅为1/20,内心深受鼓舞。竞技场采用...
Journeyman
07-24 16:09:17
GPT-4o mini
大模型竞技场
奥特曼
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序