1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
梁文锋等发表DeepSeek V3回顾性论文
近日,《科创板日报》报道,DeepSeek创始人梁文锋等人发表题为《深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考》的回顾性论文。该论文详细解析了DeepSeek-V3/R1模型架构及人工智能基础架构,强调了多项关键技术突破,包括提升内存效率的多头潜意识(MLA)、优化计算与通信权衡的专家混合(MoE)架构、通过FP8混合精度训练挖掘硬件潜能,以及采用多平面网络拓扑结构减少集群级网络开销。这些创新为大模型发展提供了重要参考。
梦境编程师
05-16 17:08:55
Deepseek-v3
人工智能架构
硬件挑战
分享至
打开微信扫一扫
内容投诉
生成图片
首次披露!DeepSeek V3 发布软硬一体协同训练论文,公开“降成本”秘诀
标题:DeepSeek V3 发布软硬协同训练论文,揭秘低成本秘诀 近日,DeepSeek团队发布论文《洞察 DeepSeek-V3:规模的挑战和对AI架构硬件的思考》,探讨如何通过软硬件协同设计降低AI训练成本。论文指出,DeepSeek-V3仅需2048个NVIDIA H800 GPU便实现...
小阳哥
05-16 14:52:41
Deepseek-v3
成本效益
软硬件协同设计
分享至
打开微信扫一扫
内容投诉
生成图片
梁文锋署名DeepSeek新论文:公开V3大模型降本方法
梁文锋署名DeepSeek新论文:公开V3大模型降本方法 梁文锋亲自参与的DeepSeek最新论文发布,团队分享了DeepSeek-V3在训练和推理中突破“硬件瓶颈”的四大核心技术。 DeepSeek-V3仅用2048块H800显卡就达到超大规模集群的训练效果,关键在于四项创新:内存优化、计算优化、通信优化及推理加速。 内存优化采用多头潜在注意力(MLA),将键值对压缩为潜在向量,大幅减少KV缓存占用。计算优化结合混合专家模型(MoE)和FP8低精度训练,每次仅激活部分参数,训练成本仅为传统稠密模型的1/10。通信优化引入多层胖树网络,降低延迟并支持大规模扩展。推理加速通过多token预测(MTP)提升生成速度。 此外,论文还展望了下一代AI硬件的发展方向,包括低精度计算支持、扩展融合、网络拓扑优化、内存系统升级及增强鲁棒性。这些设想旨在推动硬件从“被动适配”走向“主动设计”。
数码游侠
05-16 13:44:22
Deepseek-v3
优化技术
大模型降本
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
昨夜,参数量6850亿的DeepSeek-V3新版本悄然而至。相比上一版参数量仅小幅增长,但代码与数学推理能力显著提升,甚至追平Claude 3.7。该模型采用MIT开源协议,支持自由修改与商业化应用,且能在消费级设备如Mac上高效运行。网友实测显示,V3在编码、数学及逻辑推理等方面表现亮眼,部分测试中甚至超越Claude 3.7。DeepSeek团队延续低调风格,未提前宣传便直接上线,引发行业震动。有预测称,DeepSeek-R2或几周内发布,可能直接对标GPT-5。开源模型的崛起正加速全球AI格局变化,中国AI企业正逐步缩小与美国的技术差距。
像素宇宙
05-05 09:34:07
Deepseek-v3
代码能力
开源
分享至
打开微信扫一扫
内容投诉
生成图片
免费的「网页版Cursor」!新版DeepSeek-V3加持,秒秒钟编出APP
免费的「网页版Cursor」!新版DeepSeek-V3加持,秒秒钟编出APP 借助新版DeepSeek-V3,任何人现在可以快速创建应用或游戏,边开发边看效果。在Hugging Face中,名为DeepSite的应用走红网络。有网友称其为网页版“Cursor”,不仅开箱即用,还免费提供,Hug...
Nebula
04-01 13:26:23
Deepseek-v3
开源模型
网页版Cursor
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3模型更新,各项能力全面进阶
财联社3月25日电,人工智能领域迎来重要更新。DeepSeek V3模型已推出小版本升级,新版为DeepSeek-V3-0324。用户可通过官网、APP或小程序直接体验,无需复杂操作。新版本在对话流畅度及效果上均有显著提升,尤其适合非复杂推理任务,带来更优质的交互体验。API接口和使用方式维持不变,用户可无缝切换至新版。
GhostPilot
03-25 23:21:40
Deepseek-v3
对话体验
模型更新
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek V3小版本大升级:推理、前端开发加强 这些能力超越GPT-4.5
3月25日晚,DeepSeek宣布完成DeepSeek V3模型的小版本升级,版本号为DeepSeek-V3-0324。此次更新虽为小版本,但性能提升显著,尤其在前端开发、数学推理及上下文理解方面表现突出。据反馈,新版模型在数学与代码类任务中的表现超越GPT-4.5。此外,V3模型优化了HTML等代码生成的可用性和设计感,提升了中长篇中文写作的质量,并增强了联网搜索场景下的报告生成能力。该版本延续了DeepSeek-V3的基础模型架构,仅调整后训练方法,支持私有化部署时更新checkpoint与tokenizer_config.json文件。模型参数约660B,开源版本上下文长度达128K(网页端、App及API为64K)。DeepSeek-V3-0324同样采用MIT License,允许用户自由使用和再训练。
小阳哥
03-25 23:20:38
Deepseek-v3
前端开发
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶
3月24日,DeepSeek-V3模型完成小版本升级至DeepSeek-V3-0324。新版模型在推理、前端开发、中文写作及搜索能力等方面均获显著提升,尤其在数学、代码任务上表现超越GPT-4.5。此外,其生成的HTML代码更美观,中文写作质量更优,且联网搜索结果更详实。模型支持API接口不变,推荐非复杂推理任务使用。新版已开源,参数量约660B,上下文长度达128K,用户可通过Model Scope和Hugging Face获取。
AI幻想空间站
03-25 22:18:23
Deepseek-v3
模型升级
能力提升
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek低调宣称小更新,结果用2折价格达到R1水平
DeepSeek低调推出DeepSeek-V3-0324,被称为“小版本迭代”,但实测表现远超预期。该模型在代码生成、前端开发方面显著提升,部分能力比肩Claude 3.7 Sonnet,引发热议。 在KCORES测试中,DeepSeek-V3-0324代码能力达328.3分,超越普通版Claude...
Journeyman
03-25 17:07:03
DeepSeek-V3-0324
开源模型
性价比
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek V3深夜低调升级,代码进化令人震惊
昨夜,DeepSeek V3 突然更新至 'DeepSeek-V3-0324' 版本,并在 Hugging Face 平台开放下载与部署。此版本参数达 6850 亿,支持宽松的 MIT 开源协议,但未公开详细模型卡。测试显示,DeepSeek-V3-0324 在数学推理、前端开发及创意写作方面表现优异,尤其在 HTML5、CSS 等前端代码生成任务中,能一次性生成高质量代码且兼容移动设备。一位 X 博主称其性能可媲美 Claude 3.5/3.7 Sonnet,同时具备思维链模型的部分特性。此外,其生成效率高,API 价格低廉,仅为 OpenAI o1-pro 的 1/50。DeepSeek-V3-0324 的代码能力引发广泛关注,被认为是开源领域的重要进展。
智慧轨迹
03-25 14:57:46
DeepSeek-V3-0324
前端开发
模型升级
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序