综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
财联社3月20日电,据DeepSeek消息,此前出现不可用情况的DeepSeek R1服务现已恢复正常。DeepSeek R1的API服务和网页对话服务曾受到影响,目前均已恢复可用。
原文链接
DeepSeek-R2模型即将发布,预计能生成更好的代码并支持多语言推理。DeepSeek成立于2023年7月,不到两年已推出多个模型。R1模型自今年3月发布以来,显著提升了AI行业的活跃度,华为、荣耀、OPPO等企业纷纷接入。R2模型有望进一步降低成本,提升推理能力。百度和OpenAI分别宣布文心一言和ChatGPT将转向开源,以应对竞争。DeepSeek的开源理念和低成本策略正给AI行业带来巨大冲击,促使其他企业加快研发步伐。
原文链接
北大团队发现,输入看似普通的一句话,R1模型便无法停止推理,持续输出。例如,“树中两条路径之间的距离”这句话,会导致R1陷入无尽循环,直到达到最大Token限制。这种现象还出现在由R1蒸馏的Qwen模型上。
研究者们发现,一些乱码也能使R1无休止地思考,这表明模型对某些类型的输入缺乏防御。在测试中,尽管未完全复现死循环,但某些模型的思考时间长达11分钟,生成超过2万字。团队在本地部署Qwen-1.5B模型,发现其在过度思考时几乎占满GPU资源,若被恶意利用,相当于对推理模型的DDoS攻击。
此外,北大团队认为,该现象可能与模型的强化学习过程有关。模型倾向于进行长时间推理以获取奖励,即使面临模糊问题。短期内,限制推理时间和Token数量可能是有效的应对策略,但长期解决方案还需深入研究。
这一问题引起了广泛关注,有兴趣的读者可访问GitHub获取更多信息。
原文链接
2月17日,腾讯宣布旗下多个产品接入DeepSeek-R1模型。腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等产品均可使用DeepSeek-R1满血版模型。微信搜一搜灰度测试「AI搜索」,用户可通过微信对话框顶部搜索入口使用。ima更新后支持选择混元大模型或DeepSeek-R1模型。腾讯文档AI助手结合DeepSeek-R1,助力文档创作。QQ浏览器支持深度思考、联网搜索等功能。QQ音乐集成DeepSeek-R1,提升音乐推荐和创作体验。其他产品如腾讯AI代码助手、腾讯云TI平台等也已接入DeepSeek。
原文链接
2024年12月26日,DeepSeek推出对标GPT 40的语言模型V3,1月20日发布R1,因其高质量答案和潜在低成本优势迅速走红。然而,1月27日DeepSeek官网多次显示“不可用”,用户遭遇频繁“服务器繁忙”。2月5日,DeepSeek日活突破4000万,但服务不稳定引发全球用户抱怨。DeepSeek主要依靠自建数据中心,缺乏第三方云服务支持,导致算力不足。尽管多家云服务商和芯片厂商上线了DeepSeek服务,但仍未能缓解卡顿问题。DeepSeek需要解决算力储备和优化问题,以应对迅猛增长的用户需求。
原文链接
标题:DeepSeek“服务器繁忙”背后的真相
DeepSeek近期频繁回复“服务器繁忙,请稍后再试”,引起用户不满。此前,该公司推出的对标GPT 40的语言模型V3和对标OpenAI O1的R1模型因高质量回答和训练成本降低的潜力而出圈。然而,R1模型自发布以来一直面临拥堵,联网搜索功能间歇性瘫痪...
原文链接
标题:鲸起生万物:DeepSeek出圈对AI行业的意义
近十几天,DeepSeek引起广泛关注,虽伴随不少噪音,但仍不乏高质量讨论。其中,张小珺与加州伯克利大学AI实验室博士潘家怡的播客深入解析DeepSeek论文,长达3小时的知识输出令人受益匪浅。另一场由Ben Thompson主讲的3集播客,总...
原文链接
华为与DeepSeek联手推出全国产API的SiliconCloud平台,提供DeepSeek-V3和DeepSeek-R1两款模型。春节期间,平台价格优惠,吸引大量用户。V3和R1分别以1元/M tokens(输入)和2元/M tokens(输出),4元/M tokens(输入)和16元/M tokens(输出)的价格销售。R1的最大思维链长度为4K,上下文长度均为64K。平台限流,但仍受到开发者和用户的欢迎。DeepSeek-R1在City-Data的创意写作榜上排名第一。
原文链接
1月27日,DeepSeek应用登顶中美App Store免费APP下载排行榜,超越了ChatGPT、豆包和抖音。DeepSeek来自国产大模型公司深度求索,1月20日发布推理大模型DeepSeek-R1。R1在多项任务上性能接近OpenAI的ChatGPT-4,且成本仅为后者的十分之一。DeepSeek-R1开源并采用MIT许可协议,支持免费商用及修改。然而,服务状态页面显示DeepSeek网页/API暂时不可用,正在调查中。DeepSeek的成功引发市场震动,寒武纪股价下跌,Meta也加紧研究其技术细节。DeepSeek的成就被视为技术民主化和用户信任的胜利。
原文链接
中国AI初创公司深度求索(DeepSeek)在短短一个月内发布了DeepSeek-V3和DeepSeek-R1两款大模型,成本低廉,性能与OpenAI相当,震惊硅谷。DeepSeek-V3在开源模型中排名第一,性价比最高。DeepSeek-R1则在多项技术测试中名列前茅。Meta因恐慌试图复制DeepSeek成果,而A16z创始人马克·安德森称DeepSeek-R1为“最令人惊叹的突破”。DeepSeek的成功引发外界对AI行业巨额资本投入有效性的质疑,英伟达股价因此受影响。国外媒体纷纷报道,认为中国大模型的新进展为硅谷敲响了警钟。
原文链接
加载更多
暂无内容