综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
3月3日,DeepSeek V4 Lite悄然更新,参数规模仅2000亿的小模型性能逼近美国顶级大模型Sonnet 4.6。该模型自2月11日发布以来持续升级,2月27日的测试已显示显著进步,最新0302版在多项测试中表现优异,包括天气卡、游戏及前端功能等。尽管国产AI模型在对话聊天方面与闭源模型差距缩小,但在多模态、编程等领域仍落后于Anthropic、OpenAI等美国公司。DeepSeek的技术探索树立标杆,若完整版DeepSeek V4发布,或对美国AI领域造成重大冲击。
原文链接
正文:2026年2月,DeepSeek联合北大、清华在ArXiv发布论文,推出全新智能体推理框架DualPath。该框架通过引入存储至解码引擎的第二条路径,利用闲置网卡带宽优化KV-Cache加载,缓解长文本推理中的I/O瓶颈。实测显示,DualPath将660B规模模型的离线推理吞吐量提升1.87倍,在线服务吞吐量平均提升1.96倍,同时显著降低首字延迟(TTFT)。研究由北大博士生吴永彤主导,其研究方向为大模型基础设施与推理系统优化。
原文链接
2月27日,DeepSeek团队联合北大、清华发布新论文,聚焦大模型推理速度优化。论文提出名为DualPath的创新推理系统,通过“双路径读取KV-Cache”机制重新分配存储网络负载,显著提升性能:离线推理吞吐量最高提升1.87倍,在线服务每秒智能体运行数平均提升1.96倍。研究背景指出,大模型正从单轮对话向智能体系统演进,能够自主规划、调用工具并完成多轮交互任务。这一应用范式转变使推理工作负载从人类-大模型交互转向人类-大模型-环境交互,交互轮次可达数十至数百轮,对底层系统效率提出更高要求。该成果为复杂AI智能体的实际落地提供了重要技术支持。(第一财经)
原文链接
2026年2月,美国AI巨头Anthropic发布报告,指控中国AI公司DeepSeek、月之暗面和MiniMax通过‘蒸馏’方式窃取其模型数据,称这些公司创建2.4万个虚假账号与Claude对话1600万次以训练自家模型。然而,Anthropic自身也深陷数据侵权争议,包括2024年非法抓取iFixit网站数据、2025年因盗版书籍训练模型支付15亿美元和解金,甚至购买实体书扫描后焚毁以规避法律风险。分析认为,Anthropic此举并非单纯维权,而是为资本市场‘秀肌肉’以稳住3800亿美元估值,并向五角大楼‘表忠心’争取军方合作筹码。其指责中国公司将AI用于军事用途,但Anthropic早在2024年已与美国国防部合作,出售Claude模型用于军事和情报系统。此事件被视为一场‘贼喊捉贼’的商业博弈,最终硬实力仍是决定胜负的关键。
原文链接
2026年2月24日,外交部发言人毛宁在例行记者会上回应美方指控。据美国政府高级官员称,中国人工智能企业DeepSeek使用英伟达最先进的AI芯片训练其模型,可能违反美国出口管制规定,美方要求移除相关设备。对此,毛宁表示不了解具体情况,但重申中方已多次就美国输华芯片问题表明原则立场,强调了中方一贯的态度。此事件凸显中美在高科技领域竞争与规则摩擦中的新动态,引发广泛关注。
原文链接
2026年2月24日,DeepSeek的GitHub仓库迎来大规模更新,由维护者mowentian(Huang Panpan)主导,新增多个与DeepSeek API集成的项目,包括客户端应用、开发工具及企业解决方案。此次更新被视作春节假期后的一次‘大扫除’,修复了格式和API地址等问题。尽管未透露V4的具体线索,但更新引发美国AI圈及华尔街的高度紧张。CNBC预警称,纳斯达克可能再现‘DeepSeek时刻’——此前V3发布时,英伟达股价曾一度下跌近17%,市值蒸发6000亿美元。与此同时,春节期间全球AI领域竞争激烈,智谱、Minimax、科大讯飞、字节等纷纷推出新模型,唯独DeepSeek保持低调。目前,V4的发布成为万众期待焦点,市场严阵以待。
原文链接
2026年2月23日,DeepSeek在GitHub仓库进行了一系列密集更新,由维护者mowentian(Huang Panpan)主导,新增多个与DeepSeek API集成相关的项目,包括客户端应用、开发运维工具及企业级解决方案。此次更新被视作春节假期后的一次“大扫除”,但也引发了市场对DeepSeek V4发布的猜测。此前,DeepSeek V3和R1的发布曾导致美股剧烈波动,英伟达股价一度下跌近17%,市值蒸发6000亿美元。CNBC预警称,纳斯达克可能迎来“DeepSeek第二时刻”。与此同时,全球AI圈在春节档期间已有多款大模型发布,如GLM-5、MiniMax 2.5和豆包大模型2.0等,但DeepSeek V4仍未现身,引发万众期待。市场正密切关注其下一步动作。
原文链接
2026年2月13日,据《科创板日报》报道,DeepSeek官方助手在开发者交流群中透露,其网页和APP端正在测试一种新的长文本模型结构,支持1M上下文长度。此次更新仅限网页与APP端,而API服务保持不变,仍为V3.2版本,最高支持128K上下文。这一进展显示出DeepSeek在大模型领域的持续探索和技术突破。(记者 黄心怡)
原文链接
2月13日,野村证券发布AI主题研报,聚焦DeepSeek即将推出的新一代旗舰大语言模型V4。研报指出,DS-V4的技术突破将打破“芯片墙”与“内存墙”的限制,推动中国AI产业链创新加速,并缩小与全球大模型产业的差距。此次技术布局有望赋能本土算力硬件与AI应用双向发展,助力中国开源大模型生态成熟。作为去年推出DS-V3/R1并引发全球关注的企业,DeepSeek此次发布或再次搅动AI行业格局。
原文链接
2月11日晚间,DeepSeek更新新版本并开启灰度测试,上下文长度提升至1M Token,但引发用户集体吐槽。网友称更新后AI文风大变,语言文绉绉且不自然,写小说氛围感尽失;还有人批评其语气‘居高临下’,体验极差。部分用户尝试更换模型、改提示词等方法无果,甚至计划卸载。目前,网友们自发组织向官方提意见,呼吁在追求技术升级时勿忽视文本表达和共情能力。业内人士透露,该版本为‘极速测试版’,牺牲质量换速度,旨在为2026年2月中旬发布的V4版本做压力测试。同时,下一代旗舰模型预计达万亿参数级别,因训练规模扩大导致发布延迟,但春节前可能推出针对V3系列的小幅更新。
原文链接
加载更多
暂无内容