综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月31日消息,百度AI搜索今日宣布全面接入深度思考模型DeepSeek R1-0528。该模型在5月28日晚完成小版本升级,提升了模型架构、推理能力和开放性。DeepSeek R1-0528不仅能在PC端和App端为用户提供免费服务,还已在百度智能云千帆大模型平台上线。据官方介绍,该模型具有更强的推理能力,能够更准确理解用户意图,提供个性化且精准的搜索结果。同时,其写作表达更加人性化,内容信息更丰富,逻辑更清晰,可高效完成复杂任务。此前,腾讯旗下的多个AI应用也已率先接入此版本。
原文链接
3月7日,美团搜推机器学习团队宣布开源DeepSeek R1模型的INT8无损量化版本。原模型仅支持英伟达新型GPU,现通过INT8量化,可在A100上部署且吞吐量提升50%。量化代码已合入SGLang框架,模型发布于Hugging Face社区。
原文链接
2025年,大型语言模型在中国引起轰动,DeepSeek R1的发布成为行业转折点。瑞银调研显示,企业正利用AI提升生产力和收入,2025年IT支出预计增加,AI为主要驱动力。DeepSeek开源服务降低了计算成本,实现高效模型推理,支持2400万日活跃用户。该模型成本低廉,每100万tokens仅需16元人民币,受到企业青睐。尽管存在地缘政治风险,中国AI软件估值仍低于美国同行,但有上升空间。投资者态度乐观与谨慎并存,看好AI推动的创新周期。
原文链接
标题:老显卡福音!美团开源首发INT8无损满血版DeepSeek R1
美团搜推机器学习团队最新开源的DeepSeek R1模型,实现了基本无损的INT8精度量化。原生模型权重为FP8格式,仅能被英伟达新GPU支持,如今通过INT8量化,使得A100等老型号GPU也能部署。
INT8量化不仅保持了高...
原文链接
3月3日,科大讯飞宣布星火X1模型升级,数学能力全面对标DeepSeek R1和OpenAI o1。此次升级显著提升了数学答题效果,尤其在竞赛级难题上表现突出。星火X1在中小学数学作业批改、辅导及题目推荐等方面也有优势。此外,升级后的星火医疗大模型X1在医疗复杂场景推理上效果超过GPT-4o及DeepSeek R1,大幅降低医疗幻觉问题。星火教师助手也升级,实现AI教学思路更清晰详实,支持思维可视化。AI法官助理则提升了法律推理能力,贯穿案情分析、证据审查等环节。
原文链接
2月24日,上海兆芯集成电路股份有限公司宣布,基于其高性能通用处理器的PC终端、工作站和服务器成功实现了DeepSeek-R1-Distill模型的本地部署。该处理器支持笔记本、台式机、工作站、服务器全栈硬件解决方案,并兼容Linux、Windows及国产操作系统。具体部署情况包括:KX-7000台式机部署DeepSeek-R1-7B模型;KH-40000/16工作站部署DeepSeek-R1-32B模型;KH-40000/32双路服务器部署DeepSeek-R1-671B模型。此次部署验证了兆芯服务器CPU架构对大模型的硬件支撑能力。
原文链接
2月22日,小米超级小爱重新上线DeepSeek R1模型,用户可通过输入“打开深度思考”来激活,默认使用联网搜索。该功能最早于2月14日接入,但因某些原因在2月15日被下线。此次升级覆盖超过25款小米和红米手机及平板电脑型号,包括Xiaomi 15 Pro、Xiaomi 14 Ultra等。新版本支持写代码、写文章及逻辑推理等功能。
原文链接
2月19日,昆仑万维宣布Opera团队在其Opera Developer版中接入了DeepSeek R1系列模型,支持本地个性化部署。此举旨在2024年将本地大语言模型引入Web浏览器,提供超过50种LLM的访问权限。Opera Developer利用Ollama框架实现DeepSeek R1系列模型的部署,用户可直接在本地运行该模型。具体操作步骤包括:下载并更新至最新版本的Opera Developer;打开浏览器,点击Aria标识,进入设置菜单中的“本地AI模型”选项;在搜索框中输入“deepseek”并选择一个模型下载。
原文链接
2月19日,理想汽车宣布理想同学App全面接入DeepSeek R1&V3 671B满血版,支持与理想自研MindGPT大模型双向切换。该App基于MindGPT打造,具备自然语言理解、联网搜索等功能。接入DeepSeek模型后,可提升复杂逻辑推理和深度思考能力。理想同学App已更新至V1.2.0版本,提供视频、今日博客、联网搜索及模型切换功能。DeepSeek模型提问支持深度思考(R1)功能,两种模型的思考过程有所不同。
原文链接
DeepSeek发布技术报告,介绍了其R1推理模型的训练过程。R1模型分为三个阶段:基于V3基模的'冷启动'训练,通过监督微调和强化学习优化的R1模型,以及利用R1模型数据蒸馏的小模型。训练中使用了准确性奖励和格式奖励。此外,报告探讨了四种提升推理能力的方法:推理时扩展、纯强化学习、SFT+RL、蒸馏。蒸馏技术使小模型更高效,但仍需依赖现有强模型。DeepSeek展示了这些方法的有效性,为未来模型训练提供了借鉴。
原文链接
加载更多
暂无内容