推理成本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Flash Attention作者最新播客：英伟达GPU统治三年内将终结

Flash Attention作者Tri Dao在最新播客《Unsupervised Learning》中预测，英伟达GPU在未来2-3年内将失去主导地位，AI硬件市场将走向多元化。他认为，随着专用芯片的兴起，推理成本有望再降10倍，而Transformer架构已足够稳定，可支撑未来AI发展。他指出，Mixture of Experts（MoE）等技术推动了模型稀疏化与推理优化，同时低延迟、高吞吐等多样化工作负载需求将催生不同硬件优化方向。此外，他对AI达到专家水平表示期待，认为现有架构虽能实现AGI，但更高效的设计或可大幅降低成本。他还提到，实时视频生成和机器人领域可能成为下一波重要应用。

原文链接

Nebula

09-29 15:09:28

AI硬件

推理成本

英伟达GPU

分享至

打开微信扫一扫

内容投诉

生成图片

推理成本骤降75%！gpt-oss用新数据类型实现4倍推理速度，80GB显卡能跑1200亿参数大模型

2025年8月10日，OpenAI发布的开源模型gpt-oss采用MXFP4数据类型，将推理成本降低75%，推理速度提升4倍。新数据类型使1200亿参数的大模型可在80GB显存的显卡上运行，16GB显存即可支持200亿参数版本。MXFP4通过压缩权重存储和优化内存带宽，显著减少硬件资源需求，其缩放机制确保精度损失最小化。尽管MXFP4对硬件支持无严格要求，但性能优势需特定芯片（如Nvidia Blackwell）发挥最大效果。英伟达提出改进版NVFP4以进一步提升质量。OpenAI选择MXFP4表明其在大语言模型中的实用性。

原文链接

Nebula

08-11 16:04:21

MXFP4

大模型

推理成本

分享至

打开微信扫一扫

内容投诉

生成图片

字节迭代多模态大模型媲美谷歌新品智能体能力更强、推理成本更低

5月13日，《科创板日报》报道，字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL。该模型在超3Ttokens的多模态数据上预训练，具备强通用多模态理解和推理能力，且推理成本低。尽管其参数仅20B，但在60个评测基准中38个达到SOTA表现，尤其在视频和GUI任务中表现优异。与谷歌Gemini 2.5 Pro相比，Seed1.5-VL在部分任务中性能相当，但成本更低。模型在视觉定位、计数及GUI交互上有突出表现，但目标计数、复杂空间关系解析及视频动作推理等方面仍有不足。目前，Seed1.5-VL已通过火山引擎开放API供用户体验。国内外大厂纷纷布局多模态技术，全球AI竞争激烈，算力需求随之增长。

原文链接

灵感Phoenix

05-13 15:57:01

多模态大模型

推理成本

智能体

分享至

打开微信扫一扫

内容投诉

生成图片

字节跳动宣布，其最新思考模型Seed-Thinking-v1.5计划于4月17日通过火山引擎开放接口供用户测试体验。目前，该模型的技术报告已公开。Seed-Thinking-v1.5在数学、编程、科学推理等专业领域以及创意写作等通用任务中表现出色。该模型采用了MoE架构，总参数量达200B，但激活参数仅为20B，展现出显著的推理成本优势。据称，其单位推理成本较DeepSeek R1降低了50%，这标志着其在效率和经济性上的双重提升。

原文链接

数字墨迹

04-14 12:33:19

Seed-Thinking-v1.5

字节跳动

推理成本

分享至

打开微信扫一扫

内容投诉

生成图片

李飞飞实验室2025 AI报告出炉：AI推理成本降低至1/280

斯坦福大学HAI发布的2025 AI Index显示，AI推理成本降低至原来的1/280，开源模型性能快速提升。报告指出，中美AI模型差距正在缩小，2024年美国开发40个模型，中国15个，但性能差异接近相等。中国对AI态度最为乐观，83%的人认为利大于弊。AI基准测试成绩显著提高，接近人类水平，但在复杂推理任务上仍有不足。此外，AI应用加速落地，2024年78%的组织使用AI，美国AI投资达1091亿美元，是全球最高。报告还提到各国加强AI监管与投资，生成式AI吸引339亿美元资金，K-12计算机科学教育覆盖范围扩大。

原文链接

元界筑梦师

04-08 23:18:28

AI模型

开源模型

推理成本

分享至

打开微信扫一扫

内容投诉

生成图片

李飞飞实验室2025 AI报告出炉：AI推理成本降低至1/280，中美AI模型差距更小了

标题：李飞飞实验室2025 AI报告：AI推理成本降低至1/280，中美差距缩小中美AI模型差距正在缩小。由李飞飞联合领导的斯坦福大学HAI研究所发布2025 AI Index报告，追踪2024年全球AI发展，指出AI推理成本降低了280倍，开源模型迎头赶上。报告显示，美国开发了40个AI模型...

原文链接

智能涌动

04-08 15:58:38

AI推理成本

中美AI模型差距

开源模型

分享至

打开微信扫一扫

内容投诉

生成图片

字节豆包团队推出稀疏模型架构UltraMem：推理成本可降83%

2月13日，字节跳动豆包大模型Foundation团队宣布推出UltraMem稀疏模型架构。该架构通过计算与参数分离，解决了推理过程中的访存问题。UltraMem相比传统MoE架构，推理速度提升2至6倍，成本降低最多83%。实验显示，在2000万value的训练规模下，UltraMem展现顶级性能，为大规模模型发展铺平道路。

原文链接

Nebula

02-13 20:17:10

UltraMem

推理成本

稀疏模型架构

分享至

打开微信扫一扫

内容投诉

生成图片

直指端侧痛点豆包向推理算力又“砍了一刀”：新模型架构最高降本83%

字节跳动豆包大模型团队提出新稀疏模型架构UltraMem，推理速度提升2-6倍，成本降低最多83%，已获ICLR 2025接收。UltraMem解决了传统MoE和PKM架构的局限，保持了模型效果，适用于多种规模模型。该架构有望推动AI技术在边缘计算和移动设备上的广泛应用，提升智能助手等AI应用的响应速度和用户体验。

原文链接

新智燎原

02-12 14:35:40

AI应用

UltraMem

推理成本

分享至

打开微信扫一扫

内容投诉

生成图片

字节豆包大模型团队提出稀疏模型架构推理成本最高可降低83%

字节跳动豆包大模型团队近期提出UltraMem稀疏模型架构，有效解决MoE推理时的访存问题，推理速度提升2-6倍，成本最高降低83%。该架构在保证模型效果的同时提高了推理效率。实验显示，UltraMem在大规模模型中表现出色，为构建数十亿规模模型提供了新路径。该研究已被ICLR 2025接收。

原文链接

虚拟微光

02-12 13:34:52

UltraMem

推理成本

稀疏模型架构

分享至

打开微信扫一扫

内容投诉

生成图片

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

2月12日，字节跳动豆包大模型团队宣布提出全新稀疏模型架构UltraMem。该架构解决了MoE在推理时高额访存问题，速度提升2-6倍，成本最高可降低83%。UltraMem在同等计算资源下实现了业界领先的推理速度和模型性能，且在参数和激活条件下超越了MoE。该架构在Transformer架构下表现出优异的Scaling特性，为构建大规模模型开辟新路径。

原文链接