
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
6月17日凌晨,上海AI独角兽MiniMax发布全球首个开源大规模混合架构推理模型M1。M1支持100万Token上下文窗口,推理输出可达8万Token,且强化训练成本仅53万美金,远低于行业平均水平。该模型定价分三个档位,前两档低于DeepSeek-R1,128k-1M Token档为行业空白。MiniMax称M1所需算力仅为DeepSeek R1的25%-30%,其新算法CISPO使强化学习阶段仅用512块H800 GPU,三周完成训练。此举标志着MiniMax加入大模型竞争,同时开启“开源周”,未来四天将发布更多技术更新。目前,DeepSeek R2的发布时间仍未确定,对行业格局带来不确定性。
原文链接
3月24日,蚂蚁集团就“百灵”大模型训练成本问题作出回应,表示已针对不同芯片持续优化,降低成本并计划逐步开源。此前,蚂蚁Ling团队在Arxiv平台发布论文,推出百灵轻量版(168亿参数)和增强版(2900亿参数)两款MoE大语言模型,采用创新方法实现在低性能硬件上的高效训练。实验显示,该3000亿参数模型在国产GPU设备上的表现与使用英伟达芯片的同类模型相当,显著降低了训练成本。
原文链接
财联社3月10日报道,字节跳动大模型团队宣布开源一种针对MoE架构的优化技术,可提升训练效率1.7倍,节省成本40%。该技术已在字节跳动的万卡集群中应用,累计节省数百万GPU小时训练算力。
原文链接
2月26日,据沃顿商学院教授Ethan Mollick透露,人工智能公司Anthropic的最新旗舰模型Claude 3.7 Sonnet的训练成本仅为数千万美元。该模型规模不及10^26 FLOP级别。此前,Anthropic CEO达里奥・阿莫迪提到,Claude 3.5 Sonnet的训练成本同样为数千万美元。相比之下,GPT-4的开发成本超过1亿美元,Gemini Ultra的训练费用接近2亿美元。这意味着发布先进AI模型的成本正在降低。目前,Anthropic尚未对此作出回应。
原文链接
昨天,马斯克携“地球上最聪明的AI”Gork 3亮相,其推理能力超越目前所有已知模型。DeepSeek R1接入微信并被广泛测试,助推其估值飙升至千亿美金。DeepSeek以557.6万美元的GPU成本训练出与OpenAI o1能力相当的模型,引发业界关注。DeepSeek不仅在训练成本上表现出色,还在模型结构、预训练和后训练方面进行了优化,显著提高了效率。此外,DeepSeek的推理大模型和通用大模型各有优劣,适用于不同场景。未来,随着算法进步,大模型训练成本有望继续降低。
原文链接
财联社2月18日电,马斯克在直播中首次透露,Grok 3的训练成本高达20万块英伟达GPU。训练工作在xAI公司的数据中心内完成。
原文链接
标题:成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能...
原文链接
标题:省钱也是技术活:解密DeepSeek的极致压榨术
DeepSeek-V3以557.6万美元预算,在2048个H800 GPU集群上,仅用3.7天/万亿tokens的训练时间,达到与顶级模型比肩的性能。每万亿tokens仅需180K个H800 GPU小时,总计278万GPU小时。
通过671B参...
原文链接
DeepSeek V3,一个参数量达6710亿的AI模型,于近期正式开源。相比Llama 3.1 405B,DeepSeek V3不仅在评测中达到开源SOTA,还能与GPT-4o和Claude 3.5 Sonnet等顶级模型相媲美,且价格仅为后者的1/53。更令人惊叹的是,DeepSeek V3仅需不到280万个GPU小时的训练时间,相比Llama 3.1的3080万GPU小时,大幅降低了成本。DeepSeek V3的API价格也极具竞争力,每百万输入tokens只需0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。此外,DeepSeek V3支持FP8权重的原生开源,并提供FP8到BF16的转换脚本。DeepSeek团队的技术成就得到了多位专家的认可,包括OpenAI创始成员Karpathy和Meta科学家田渊栋。DeepSeek V3现已开放体验,官网为。
原文链接
标题:国产之光DeepSeek惊艳亮相,671B大模型训练仅需此前算力1/10,细节全公开
DeepSeek V3正式发布,延续“便宜大碗”的特点且完全开源。该模型参数量达671B,激活37B,在14.8T高质量token上预训练。在多项测评中,DeepSeek V3超越Llama 3.1 405B...
原文链接
加载更多

暂无内容