
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月18日,中国开源模型Kimi K2超越DeepSeek,登上全球开源模型排名第一,并在总榜中位列第五,紧追Grok 4等顶尖闭源模型。Kimi K2在多项能力上表现出色,如连续多轮对话、编程能力和复杂提示词应对均位居前列。其在开源社区反响热烈,GitHub标星达5.6K,Hugging Face下载量近10万。尽管Kimi K2基于DeepSeek V3架构,但通过参数优化实现性能提升,被评价为“精打细算”的改进。随着开源模型崛起,‘开源=性能弱’的刻板印象正被打破,行业专家普遍看好开源未来。值得一提的是,全球总榜TOP 10中唯二开源模型均来自中国。
原文链接
2025年7月,Kimi K2超越DeepSeek成为全球开源模型排名第一,总榜第五,紧追Grok 4等顶尖闭源模型。其在连续对话、编程能力等多项指标上表现优异,甚至与闭源模型抗衡。这是继DeepSeek后,再次由中国团队开发的模型登顶开源榜首。Kimi K2发布一周内,GitHub获5.6K星标,Hugging Face下载量近10万,引发广泛关注。尽管采用DeepSeek V3架构,但通过参数优化实现性能提升,被评价为‘大胆’且高效的选择。行业专家认为,开源模型正迅速崛起,逐渐打破‘开源=性能弱’的刻板印象,未来或将在AI发展中扮演关键角色。
原文链接
2月12日,华为技术有限公司宣布DeepSeek V3/R1 671B旗舰模型(满血版)已全栈优化适配于华为云昇腾云服务,满足商用部署需求。用户可通过华为云ModelArts Studio控制台免费体验该模型,只需登录账号、搜索服务并完成相关授权和实名认证即可。此外,华为云Stack还提供图形化第三方模型部署方案,支持将DeepSeek模型部署到混合云环境中。
原文链接
2月4日,中科曙光国家先进计算产业创新中心宣布,海光信息技术团队完成了DeepSeek V3和R1模型与海光DCU国产化适配,并已正式上线。用户可在“光合开发者社区”的“光源”板块访问和下载这些模型。DeepSeek V3和R1基于Transformer架构,采用MLA和DeepSeek MoE技术,分别优化了内存占用和模型性能。海光DCU是海光信息推出的GPGPU架构AI加速卡,在多个领域实现规模化应用。
原文链接
阿里在除夕夜发布了Qwen2.5-Max,这款模型在多个基准测试中超越了DeepSeek V3。Qwen2.5-Max在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准测试中表现出色,整体优于DeepSeek V3、Llama-3.1-405B及闭...
原文链接
阿里云于1月29日发布了全新超大规模MoE模型通义千问Qwen 2.5-Max。该模型采用超过20万亿token的预训练数据及后训练方案。据阿里云公布的数据,在Arena-Hard、LiveBench等基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,并在MMLU-Pro等评估中展现出竞争力。此外,在基座模型对比中,Qwen 2.5-Max在多数基准测试中优于DeepSeek V3、Llama-3.1-405B等开源模型。Qwen 2.5-Max尚未开源。
原文链接
2024年底,开源模型DeepSeek V3因其6710亿参数逼近顶级闭源模型性能而引发关注。DeepSeek V3仅用278.8万GPU小时完成训练,大幅降低训练成本。然而,业内对其是否真正提供经济实惠的AI发展路径存在争议。质疑者认为其训练前的数据生成和清洗仍需大量算力。DeepSeek V3采用多头潜在注意力(MLA)和混合专家架构(MoE),大幅减少显存占用并实现专家负载均衡。尽管如此,其训练仍需大量GPU小时。乐观者认为DeepSeek V3在推理能力和算法优化方面取得突破,展示了‘乌鸦范式’的可能性,即低功耗、自主推理的AI发展方向。
原文链接
标题:DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet实测对比
国产之光DeepSeek V3在竞技场排名中位居第七,成为唯一进入前十的开源模型,尤其在困难提示、编程、数学和写作方面超越Claude 3.5 Sonnet。然而,Claude 3.5 Sonnet在风格...
原文链接
12月26日,深度求索发布了大模型DeepSeek V3,成为2024年AI界的压轴事件。该模型参数约为GPT-4o的1/3,成本仅为557.6万美元,训练时长仅280万个GPU小时。DeepSeek V3的性能与顶级闭源模型相当,但成本和时间远低于后者。DeepSeek团队仅有139人,而OpenAI有1200人。DeepSeek V3的发布引发了硅谷的震惊,凸显了中国科技企业在AI领域的强劲发展势头。
原文链接
12月26日,DeepSeek-V3发布并开源,提升了训练效率和推理速度。该模型参数为6710亿,通识和专业知识测试表现优异,MMLU pro正确率75.9%,MATH 500正确率90.2%。相比GPT-4,DeepSeek-V3的训练成本更低,仅为GPT-4的1/6.2。DeepSeek-V3的发布有望加速AI应用落地,特别是在办公、教育、金融等领域。国产模型性价比提升,AI应用将依托丰富生态和成熟流量加速各领域落地。
原文链接
加载更多

暂无内容