2024年冬天,杭州一家名为“深度求索”的初创公司发布了全新大模型DeepSeek-V3。在多项基准测试中,它的性能超越了其他开源模型,甚至接近顶尖闭源模型GPT-4o。尤其在数学推理上,DeepSeek-V3表现出色。
DeepSeek-V3的研发成本仅为558万美元,远低于GPT-4o的成本。这让美国人感到震惊,反思大模型和算力的投资价值。更重要的是,DeepSeek-V3展示了中国的首创精神,采用了多项开创性技术,如MLA和DeepSeekMoE,提升了模型性能和训练效率。
DeepSeek背后的资方是一家低调的私募基金——幻方量化。该公司在2023年成立“深度求索”子公司,团队仅139人,远少于OpenAI的1200人。梁文峰,幻方量化的创始人,带领这支团队,凭借对AI和数学的深刻理解,创造了DeepSeek-V3。
梁文峰曾研究量化投资,2010年获得成功后转向AI领域。他坚信AI会改变世界,因此在2015年创立幻方量化,致力于打造顶级量化基金。为了支持AI发展,梁文峰大规模布局AI算力,包括“萤火一号”和“萤火二号”。
梁文峰强调,创新不仅仅是商业驱动的,还需要好奇心和创造欲。DeepSeek-V3的成功证明了中国企业在原创技术上的潜力,有望引领AI产业的新方向。
原文链接
本文链接:https://kx.umi6.com/article/11861.html
转载请注明文章出处
相关推荐
.png)
换一换
AMD:已将新的DeepSeek-V3模型集成到Instinct MI300X GPU上
2025-01-25 18:04:42
DeepSeek-V3低调发布后 业内震惊之余再次怀疑硅谷模式
2025-03-25 12:55:22
爆火的DeepSeek-V3强在哪?
2024-12-29 15:55:20
472 文章
79145 浏览
24小时热文
更多

-
2025-07-21 14:20:17
-
2025-07-21 14:19:09
-
2025-07-21 14:18:00