1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
正文:2025年7月,上海交大与深势科技团队发布新研究,在“人类最后的考试”(HLE)中取得32.1分,首次突破30分大关,刷新纪录。该测试集由AI安全中心和Scale AI发起,以研究生难度著称,涵盖数学、物理、生物医药等多学科,题目难以检索且需明确答案。团队推出工具增强推理智能体X-Master及多智能体工作流系统X-Masters,并开源方案。实验显示,X-Masters在HLE纯文本子集表现优于现有模型,尤其在生物学/医学领域达27.6%正确率,超越Biomni和STELLA。研究使用DeepSeek-R1-0528作为推理模型,通过分散-堆叠架构显著提升性能。
AI幻想空间站
07-09 14:04:55
DeepSeek-R1
HLE
X-Master
分享至
打开微信扫一扫
内容投诉
生成图片
网页编程众测排名:DeepSeek-R1超越Claude 4加冕全球第一
近日,网页编程能力排行榜迎来更新,DeepSeek-R1凭借出色表现超越Claude 4,荣登全球编程能力榜首。尽管Claude Opus 4一直被视为顶级编码模型,但DeepSeek-R1在LiveCodeBench上的优异成绩引发关注。实测显示,DeepSeek-R1能够快速生成多种编程任务代码,例如34秒内完成带有交互功能的太阳系动画程序,以及23秒内生成现代化AGI主题网页代码。然而,其在复杂任务如俄罗斯方块开发中仍存不足,多次运行均出现bug及交互功能缺失问题。尽管如此,DeepSeek-R1因其开源特性及易用性受到国内用户的青睐。此外,DeepSeek-R1还在多个开源模型榜单中名列前茅,MIT许可证加持下,其综合实力不容小觑。值得注意的是,Kimi新模型Kimi-Dev近期以60.4%的成绩刷新代码开源SOTA记录,挑战着现有编程模型的领先地位。
镜像现实MirageX
06-17 16:24:38
Claude 4
DeepSeek-R1
编程模型
分享至
打开微信扫一扫
内容投诉
生成图片
理想同学接入 DeepSeek-R1-0528 最新模型
6月12日消息,理想同学宣布已接入DeepSeek-R1-0528最新模型。该模型已在手机和网页端上线,用户可切换至“DeepSeek模型”并开启“深度思考”模式体验新功能。新版模型在复杂逻辑推理、长文本处理及代码生成等方面表现优异,接近国际顶尖模型如o3与Gemini-2.5-Pro。例如,在AIME 2025测试中,推理准确率从旧版的70%提升至87.5%。此外,模型幻觉率降低45%-50%,并在议论文、小说等创意写作领域表现出色,生成的作品结构更完整、风格更贴近人类偏好。
电子诗篇
06-12 19:38:31
AI模型
DeepSeek-R1-0528
理想同学
分享至
打开微信扫一扫
内容投诉
生成图片
OPPO ColorOS 小布助手完成 DeepSeek R1 最新版升级
6月9日消息,OPPO小布助手已完成DeepSeek-R1全新版本升级,官方称其“思考更深,推理更强”。此次升级进一步优化了流畅度,并通过本地化网络部署减少对服务器依赖。此前,ColorOS于2月宣布接入满血版DeepSeek-R1。值得关注的是,努比亚Z70系列也在本月3日率先升级至DeepSeek-R1-0528版本。
蝶舞CyberSwirl
06-09 15:31:10
DeepSeek-R1
OPPO
小布助手
分享至
打开微信扫一扫
内容投诉
生成图片
梁文锋不着急
5月28日,DeepSeek宣布DeepSeek-R1模型完成小版本试升级,API服务短暂中断5分钟。5月29日开源R1最新0528版本,这是R1自1月推出以来的首次更新。更新后的R1-0528在数学、编程等能力上接近国际顶尖模型,幻觉率降低45%-50%。此次更新通过后训练提升了模型的思维深度与推理能力,但上下文长度仍为64K,低于部分竞争对手。DeepSeek称R2模型可能需等待V4模型完成后推出。梁文锋团队专注于模型本身而非急于商业化,与转向AI Agent的行业趋势不同。DeepSeek的坚持得到英伟达CEO黄仁勋认可,其股价因DeepSeek更新未受负面影响。
星际Code流浪者
05-30 21:56:33
DeepSeek-R1
大模型
梁文锋
分享至
打开微信扫一扫
内容投诉
生成图片
百度智能云千帆大模型平台、文小言宣布接入 DeepSeek-R1-0528 最新模型
5月28日晚,DeepSeek发布R1大模型最新版本DeepSeek-R1-0528,该模型在复杂逻辑推理、长文本处理及代码生成等方面表现大幅提升。同日,百度智能云千帆大模型平台宣布已上架此模型,企业用户和开发者可通过千帆体验。千帆平台不仅支持DeepSeek-R1-0528的批量推理、模型评估、日志分析等功能,还完成了对其在企业级应用中的全链路接入,助力企业定制专属大模型。此外,文小言App也全面接入该模型,用户可体验全新AI问答与创作能力。DeepSeek-R1-0528的发布标志着大模型技术的进一步优化,为企业和开发者提供了更强大的工具支持。
小阳哥
05-29 22:43:00
DeepSeek-R1-0528
大模型
百度智能云千帆
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1-0528 更新官方详解:思考更深、推理更强,整体表现接近 o3
5月29日,深度求索官方发布了DeepSeek-R1-0528的小版本更新详情。该版本基于2024年12月发布的DeepSeek V3 Base模型,通过加大后训练算力,显著增强了模型的推理能力和思维深度。在AIME 2025测试中,新版模型准确率提升至87.5%,相比旧版的70%有明显进步。此外,在 Humanity's Last Exam 测试中,新版模型的表现接近国际顶尖模型o3与Gemini-2.5-Pro。除推理能力外,幻觉问题也得到改善,幻觉率降低45%-50%。新版本还优化了创意写作、工具调用及前端代码生成等功能,并同步更新API,新增Function Calling和JsonOutput支持。DeepSeek-R1-0528模型权重已开源,上下文长度达128K,兼容MIT License。
未来笔触
05-29 20:40:27
DeepSeek-R1-0528
推理能力
模型更新
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek R1悄悄更新,用“小版本”干翻大模型
DeepSeek R1悄然更新,用“小版本”实现性能飞跃 虽然DeepSeek-R2并未如预期在5月发布,但DeepSeek正通过小版本迭代不断进步。近日,DeepSeek官方宣布R1完成小版本试升级,引起广泛关注。DeepSeek-R1-0528版本在编程能力上大幅提升,且价格保持不变,引发行...
星际Code流浪者
05-29 18:39:30
DeepSeek-R1-0528
小版本升级
编程能力
分享至
打开微信扫一扫
内容投诉
生成图片
超越 DeepSeek-R1,英伟达开源模型 Llama-Nemotron 登顶
英伟达开源模型Llama-Nemotron系列超越DeepSeek-R1,成为目前性能最强的开源模型。该系列包括LN-Nano 8B、LN-Super 49B和LN-Ultra 253B,其中LN-Ultra不仅在推理吞吐量上超越DeepSeek-R1,还能在单个8xH100节点上高效运行。英伟达通过合成数据监督微调和强化学习技术提升模型推理能力,并采用神经架构搜索优化推理效率。LN-Ultra在GPQA-Diamond测试中取得最佳平衡,同时支持推理开关功能,满足多场景需求。研究团队还通过大规模强化学习和偏好优化显著提升了模型的指令跟随能力和泛化能力。该成果于2025年4月发布,为开源AI领域树立了新标杆。
新智燎原
05-06 17:56:45
DeepSeek-R1
Llama-Nemotron
开源模型
分享至
打开微信扫一扫
内容投诉
生成图片
超越DeepSeek?巨头们不敢说的技术暗战
标题:超越DeepSeek?巨头们不敢说的技术暗战 DeepSeek-R1模型的问世是中国AI技术的重大突破,性能堪比国际顶尖产品,且所需计算资源减少近30%。然而,实际部署中需大量开发资源进行适配优化,削弱了理论效率优势。其成功验证了算法创新的可能性,并引发对技术进化的思考:当算法突破与传统架...
Nebula
04-30 19:57:31
AI算力
DeepSeek-R1
算力革命
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序