综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年1月,欧洲版OpenAI公司Mistral的CEO Arthur Mensch在访谈中声称,中国开源模型DeepSeek-V3基于其团队提出的架构构建,此言论引发争议。网友指出,DeepSeek-V3与Mistral的Mixtral论文发布时间仅相差3天,且两者的架构思路和数学公式存在显著差异。DeepSeek通过细粒度专家分割和改进路由机制实现算法创新,而Mixtral更偏向工程优化。此外,Mistral 3 Large被曝直接沿用DeepSeek-V3架构,进一步加剧批评。Arthur Mensch的发言被质疑试图‘岁月史书’以挽回面子,网友对Mistral的态度从赞赏转为不满。目前,DeepSeek正瞄准春节档发布新模型,竞争愈发激烈。
原文链接
12月3日,科技媒体Wccftech报道,英伟达GB200 NVL72 AI服务器在‘混合专家’模型测试中取得重大突破,性能较上一代HGX 200提升10倍。测试基于Deepseek-R1等开源大语言模型,验证了其显著的计算效率。GB200采用72芯片配置、30TB共享内存及第五代NVLink技术,通过协同设计和全栈优化(如NVIDIA Dynamo框架)大幅提升专家并行计算能力。此外,新数据格式NVFP4进一步提升了性能与精度。这一进展解决了MoE模型扩展瓶颈,满足AI算力需求,巩固了英伟达在AI服务器市场的领导地位。
原文链接
正文:2025年9月1日,美团发布并开源了LongCat-Flash-Chat AI模型,采用混合专家架构,总参数量达5600亿,但仅激活5%即可实现高效性能。该模型在智能体任务、推理速度及成本控制上表现突出,尤其适合复杂场景应用。其创新的“零计算专家”机制和跨层通道设计优化了算力分配与训练效率,在H800 GPU上实现100+ tokens/s推理速度,输出成本低至5元/百万token。基准测试中,LongCat-Flash在多项指标中名列前茅,例如ArenaHard-V2得分86.50,MMLU得分89.71,并在智能体工具使用和编程任务中超越更大规模模型。美团已提供SGLang和vLLM两种部署方案,代码以MIT License开源,用户可自由用于研究或蒸馏新模型。详情见其官方资源及相关页面。
原文链接
标题:DeepSeek开源的DeepGEMM详解
DeepSeek开源周第三天发布了专为Hopper架构GPU优化的矩阵乘法库——DeepGEMM。该库支持标准矩阵计算和混合专家模型(MoE)计算,在Hopper GPU上达到1350+FP8 TFLOPS的高性能。
DeepGEMM核心代码仅约30...
原文链接
2月25日,DeepSeek在开源周上发布了DeepEP,首个用于MoE模型训练和推理的EP通信库。该库支持高效全对全通信及低精度运算,兼容现代高性能计算需求。特别优化了NVLink到RDMA的非对称带宽转发场景,提供高吞吐量和SM数量控制。对于延迟敏感的推理解码,DeepEP还提供纯RDMA低延迟内核,支持自适应路由,满足多样化GPU资源需求。
原文链接
《科创板日报》报道,月之暗面Kimi发布新技术报告,推出‘Moonlight’模型,该模型基于Muon训练,参数量分别为30亿和160亿。使用了5.7万亿个token进行训练,在较低的浮点运算次数下实现更优性能,提升了帕累托效率边界。
原文链接
国产AI大模型DeepSeek在近期发布,其DeepSeek-V3和DeepSeek-R1模型在多项评测中超越了其他开源模型,性能接近GPT-4。DeepSeek-R1可免费使用并支持联网搜索,其推理成本低,仅需传统模型成本的约3%。DeepSeek还开源了模型权重和技术,降低了使用门槛。此外,DeepSeek最新推出的Janus-Pro-7B模型在多模态能力上表现出色。与此同时,阿里通义团队发布了Qwen2.5-Max模型,性能与DeepSeek-V3相媲美。DeepSeek的成功引发了行业关注,推动了AI技术的发展。
原文链接
加载更多
暂无内容