
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
原文链接
近日,网页编程能力排行榜迎来更新,DeepSeek-R1凭借出色表现超越Claude 4,荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型,但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示,DeepSeek-R1能够快速生成多种编程任务代码,例如34秒内完成带有交互功能的太阳系动画程序,以及23秒内生成现代化AGI主题网页代码。然而,其在复杂任务如俄罗斯方块开发中仍存不足,多次运行均出现bug及交互功能缺失问题。尽管如此,DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外,DeepSeek-R1还在多个开源模型榜单中名列前茅,MIT许可证加持下,其综合实力不容小觑。值得注意的是,Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录,挑战着现有编程模型的领先地位。
原文链接
6月12日消息,理想同学宣布已接入DeepSeek-R1-0528最新模型。该模型已在手机和网页端上线,用户可切换至“DeepSeek模型”并开启“深度思考”模式体验新功能。新版模型在复杂逻辑推理、长文本处理及代码生成等方面表现优异,接近国际顶尖模型如o3与Gemini-2.5-Pro。例如,在AIME 2025测试中,推理准确率从旧版的70%提升至87.5%。此外,模型幻觉率降低45%-50%,并在议论文、小说等创意写作领域表现出色,生成的作品结构更完整、风格更贴近人类偏好。
原文链接
6月9日消息,OPPO小布助手已完成DeepSeek-R1全新版本升级,官方称其“思考更深,推理更强”。此次升级进一步优化了流畅度,并通过本地化网络部署减少对服务器依赖。此前,ColorOS于2月宣布接入满血版DeepSeek-R1。值得关注的是,努比亚Z70系列也在本月3日率先升级至DeepSeek-R1-0528版本。
原文链接
5月28日,DeepSeek宣布DeepSeek-R1模型完成小版本试升级,API服务短暂中断5分钟。5月29日开源R1最新0528版本,这是R1自1月推出以来的首次更新。更新后的R1-0528在数学、编程等能力上接近国际顶尖模型,幻觉率降低45%-50%。此次更新通过后训练提升了模型的思维深度与推理能力,但上下文长度仍为64K,低于部分竞争对手。DeepSeek称R2模型可能需等待V4模型完成后推出。梁文锋团队专注于模型本身而非急于商业化,与转向AI Agent的行业趋势不同。DeepSeek的坚持得到英伟达CEO黄仁勋认可,其股价因DeepSeek更新未受负面影响。
原文链接
5月28日晚,DeepSeek发布R1大模型最新版本DeepSeek-R1-0528,该模型在复杂逻辑推理、长文本处理及代码生成等方面表现大幅提升。同日,百度智能云千帆大模型平台宣布已上架此模型,企业用户和开发者可通过千帆体验。千帆平台不仅支持DeepSeek-R1-0528的批量推理、模型评估、日志分析等功能,还完成了对其在企业级应用中的全链路接入,助力企业定制专属大模型。此外,文小言App也全面接入该模型,用户可体验全新AI问答与创作能力。DeepSeek-R1-0528的发布标志着大模型技术的进一步优化,为企业和开发者提供了更强大的工具支持。
原文链接
5月29日,深度求索官方发布了DeepSeek-R1-0528的小版本更新详情。该版本基于2024年12月发布的DeepSeek V3 Base模型,通过加大后训练算力,显著增强了模型的推理能力和思维深度。在AIME 2025测试中,新版模型准确率提升至87.5%,相比旧版的70%有明显进步。此外,在 Humanity's Last Exam 测试中,新版模型的表现接近国际顶尖模型o3与Gemini-2.5-Pro。除推理能力外,幻觉问题也得到改善,幻觉率降低45%-50%。新版本还优化了创意写作、工具调用及前端代码生成等功能,并同步更新API,新增Function Calling和JsonOutput支持。DeepSeek-R1-0528模型权重已开源,上下文长度达128K,兼容MIT License。
原文链接
DeepSeek R1悄然更新,用“小版本”实现性能飞跃
虽然DeepSeek-R2并未如预期在5月发布,但DeepSeek正通过小版本迭代不断进步。近日,DeepSeek官方宣布R1完成小版本试升级,引起广泛关注。DeepSeek-R1-0528版本在编程能力上大幅提升,且价格保持不变,引发行...
原文链接
英伟达开源模型Llama-Nemotron系列超越DeepSeek-R1,成为目前性能最强的开源模型。该系列包括LN-Nano 8B、LN-Super 49B和LN-Ultra 253B,其中LN-Ultra不仅在推理吞吐量上超越DeepSeek-R1,还能在单个8xH100节点上高效运行。英伟达通过合成数据监督微调和强化学习技术提升模型推理能力,并采用神经架构搜索优化推理效率。LN-Ultra在GPQA-Diamond测试中取得最佳平衡,同时支持推理开关功能,满足多场景需求。研究团队还通过大规模强化学习和偏好优化显著提升了模型的指令跟随能力和泛化能力。该成果于2025年4月发布,为开源AI领域树立了新标杆。
原文链接
标题:超越DeepSeek?巨头们不敢说的技术暗战
DeepSeek-R1模型的问世是中国AI技术的重大突破,性能堪比国际顶尖产品,且所需计算资源减少近30%。然而,实际部署中需大量开发资源进行适配优化,削弱了理论效率优势。其成功验证了算法创新的可能性,并引发对技术进化的思考:当算法突破与传统架...
原文链接
加载更多

暂无内容