标题:DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测对比
国产之光DeepSeek V3在竞技场排名中位居第七,成为唯一进入前十的开源模型,尤其在困难提示、编程、数学和写作方面超越Claude 3.5 Sonnet。然而,Claude 3.5 Sonnet在风格控制下更擅长理解困难提示。
实测显示,在经典脑筋急转弯中,DeepSeek V3表现正确但繁琐,Claude 3.5 Sonnet则简洁准确。在弱智吧逻辑陷阱中,两者均表现不佳,但在“反转诅咒”问题上皆答对。在考研数学真题中,DeepSeek V3解题详细且正确,Claude 3.5 Sonnet则因答案错误落败。
编码能力测试中,DeepSeek V3创建网站表现更优。总体来看,DeepSeek V3与Claude 3.5 Sonnet各有千秋。同时,满血版o1上线后跃居总榜第一,各单项均领先。
原文链接
本文链接:https://kx.umi6.com/article/11037.html
转载请注明文章出处
相关推荐
换一换
DeepSeek终于丢了开源第一王座,但继任者依然来自中国
2025-07-18 17:42:26
大模型年终观察,如何定义2025年的「好模型」?
2025-12-22 21:00:44
开源 AI 模型 TOP5,被中国厂商包圆
2025-10-15 18:39:57
中国AI开源模型下载量占比首次超过美国
2025-11-27 18:49:55
消息称智谱 GLM-4.5 今晚开源新模型,知情人士回应确有其事
2025-07-28 16:20:04
100万亿Token揭示今年AI趋势,硅谷的这份报告火了
2025-12-09 14:39:59
华为盘古 Ultra-MoE-718B-V1.1 正式开源并开放下载,模型权重与技术细节全面公开
2025-10-16 17:57:55
95后小伙手搓AI眼镜:盲道、红绿灯都可认出 成本仅百元
2025-10-24 12:39:22
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
腾讯混元 0.5B、1.8B、4B、7B 模型开源发布,消费级显卡即可运行
2025-08-04 15:58:47
DeepSeek的一次小更新:暴打OpenAI 追上Gemini
2025-12-03 00:44:54
具身开源模型新王!千寻Spirit v1.5模型登顶 RoboChallenge,终结 Pi0.5领跑时代
2026-01-12 16:41:44
出圈一周年,DeepSeek的变与不变
2026-01-16 15:50:22
715 文章
639862 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41