1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
MiniMax发布全球首个混合架构开源模型M1 称强化训练成本仅53万美金
6月17日凌晨,上海AI独角兽MiniMax发布全球首个开源大规模混合架构推理模型M1。M1支持100万Token上下文窗口,推理输出可达8万Token,且强化训练成本仅53万美金,远低于行业平均水平。该模型定价分三个档位,前两档低于DeepSeek-R1,128k-1M Token档为行业空白。MiniMax称M1所需算力仅为DeepSeek R1的25%-30%,其新算法CISPO使强化学习阶段仅用512块H800 GPU,三周完成训练。此举标志着MiniMax加入大模型竞争,同时开启“开源周”,未来四天将发布更多技术更新。目前,DeepSeek R2的发布时间仍未确定,对行业格局带来不确定性。
蝶舞CyberSwirl
06-17 19:29:56
MiniMax-M1
开源模型
强化训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
蚂蚁集团回应新模型训练成本降低:基于不同芯片持续调优,会逐步开源
3月24日,蚂蚁集团就“百灵”大模型训练成本问题作出回应,表示已针对不同芯片持续优化,降低成本并计划逐步开源。此前,蚂蚁Ling团队在Arxiv平台发布论文,推出百灵轻量版(168亿参数)和增强版(2900亿参数)两款MoE大语言模型,采用创新方法实现在低性能硬件上的高效训练。实验显示,该3000亿参数模型在国产GPU设备上的表现与使用英伟达芯片的同类模型相当,显著降低了训练成本。
智能视野
03-24 17:06:03
大模型
蚂蚁集团
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
字节对MoE模型训练成本再砍一刀 成本可节省40%
财联社3月10日报道,字节跳动大模型团队宣布开源一种针对MoE架构的优化技术,可提升训练效率1.7倍,节省成本40%。该技术已在字节跳动的万卡集群中应用,累计节省数百万GPU小时训练算力。
AI思维矩阵
03-10 17:52:30
MoE模型
字节跳动
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
Anthropic 新旗舰 AI 模型 Claude 3.7 Sonnet 训练成本曝光:仅数千万美元
2月26日,据沃顿商学院教授Ethan Mollick透露,人工智能公司Anthropic的最新旗舰模型Claude 3.7 Sonnet的训练成本仅为数千万美元。该模型规模不及10^26 FLOP级别。此前,Anthropic CEO达里奥・阿莫迪提到,Claude 3.5 Sonnet的训练成本同样为数千万美元。相比之下,GPT-4的开发成本超过1亿美元,Gemini Ultra的训练费用接近2亿美元。这意味着发布先进AI模型的成本正在降低。目前,Anthropic尚未对此作出回应。
AI幻想空间站
02-26 15:36:38
Anthropic
Claude 3.7 Sonnet
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek们的成本,是怎么计算的?
昨天,马斯克携“地球上最聪明的AI”Gork 3亮相,其推理能力超越目前所有已知模型。DeepSeek R1接入微信并被广泛测试,助推其估值飙升至千亿美金。DeepSeek以557.6万美元的GPU成本训练出与OpenAI o1能力相当的模型,引发业界关注。DeepSeek不仅在训练成本上表现出色,还在模型结构、预训练和后训练方面进行了优化,显著提高了效率。此外,DeepSeek的推理大模型和通用大模型各有优劣,适用于不同场景。未来,随着算法进步,大模型训练成本有望继续降低。
数字墨迹
02-19 10:43:25
DeepSeek
大模型
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克在直播中首次披露Grok 3的训练成本:20万块英伟达GPU
财联社2月18日电,马斯克在直播中首次透露,Grok 3的训练成本高达20万块英伟达GPU。训练工作在xAI公司的数据中心内完成。
数据炼金师
02-18 15:36:11
Grok 3
英伟达GPU
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
标题:成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能...
AGI探路者
02-07 08:47:13
推理模型
蒸馏
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
省钱也是技术活:解密DeepSeek的极致压榨术
标题:省钱也是技术活:解密DeepSeek的极致压榨术 DeepSeek-V3以557.6万美元预算,在2048个H800 GPU集群上,仅用3.7天/万亿tokens的训练时间,达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时,总计278万GPU小时。 通过671B参...
Nebula
01-23 16:22:07
Deepseek-v3
工程优化
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
国产AI大模型之光DeepSeek把AI大佬全炸出来了!6710亿参数训练只需1/10算力
DeepSeek V3,一个参数量达6710亿的AI模型,于近期正式开源。相比Llama 3.1 405B,DeepSeek V3不仅在评测中达到开源SOTA,还能与GPT-4o和Claude 3.5 Sonnet等顶级模型相媲美,且价格仅为后者的1/53。更令人惊叹的是,DeepSeek V3仅需不到280万个GPU小时的训练时间,相比Llama 3.1的3080万GPU小时,大幅降低了成本。DeepSeek V3的API价格也极具竞争力,每百万输入tokens只需0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。此外,DeepSeek V3支持FP8权重的原生开源,并提供FP8到BF16的转换脚本。DeepSeek团队的技术成就得到了多位专家的认可,包括OpenAI创始成员Karpathy和Meta科学家田渊栋。DeepSeek V3现已开放体验,官网为。
代码编织者Nexus
12-27 14:05:57
DeepSeek V3
开源
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
标题:国产之光DeepSeek惊艳亮相,671B大模型训练仅需此前算力1/10,细节全公开 DeepSeek V3正式发布,延续“便宜大碗”的特点且完全开源。该模型参数量达671B,激活37B,在14.8T高质量token上预训练。在多项测评中,DeepSeek V3超越Llama 3.1 405B...
月光编码师
12-27 13:01:10
AI模型
DeepSeek
训练成本
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序