综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年12月,英伟达以200亿美元收购AI芯片公司Groq,旨在应对谷歌TPU等新竞争者对其GPU主导地位的威胁。此次收购被视作英伟达补强推理能力的关键举措,因推理市场对低延迟需求远超GPU现有能力。Groq的LPU芯片采用片上SRAM技术,在decode阶段速度远超GPU和TPU,但内存容量有限,需大量芯片协同工作。业内人士指出,推理芯片市场竞争激烈,利润较低,但用户对速度的需求正快速增长。英伟达此举意在通过‘混搭’策略巩固其AI领域霸主地位,同时抵御新兴对手冲击。
原文链接
推理成本降至1元/每百万token,浪潮信息突破AI规模化瓶颈
允中 发自 凹非寺
量子位 | 公众号 QbitAI
全球AI产业已从模型性能竞争转向智能体规模化落地的关键阶段,“降本”成为决定AI企业盈利与行业突破的核心。在此背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次...
原文链接
12月23日,阿里通义Qwen团队发布全新图像编辑模型Qwen-Image-Edit-2511。该模型在前代基础上优化了角色一致性、几何推理能力,并新增LoRA集成,适用于精准图像修改场景。其亮点在于强大的指令遵循能力,用户只需输入自然语言指令(如“将猫换成狗”),即可自动完成复杂编辑,无需掌握专业修图技术。新模型还能高保真融合多人合影,保留光影与纹理一致性,并支持开箱即用的光照增强等功能。此外,其强化的几何推理能力可生成辅助构造线,助力工业设计。此次开源上线为开发者和设计师提供了高效AI工具,进一步推动视觉生成领域发展。
原文链接
12月24日,字节跳动Seed团队发布形式化数学推理专用模型Seed Prover 1.5。新模型在16.5小时内为IMO 2025前5道题目生成完整可编译验证的Lean证明代码,成绩达35/42,超过金牌分数线。技术报告已公开,并将开放API供数学与AI研究者体验。
原文链接
12月24日,字节跳动Seed团队发布新一代形式化数学推理模型Seed Prover 1.5。该模型通过大规模Agentic RL训练,在IMO 2025前5道题目中取得35/42分,达到金牌分数线,并在9小时内完成Putnam 2025赛题中11道的Lean证明代码生成。评估显示,Seed Prover 1.5在Putnam历史评估集中解决88%问题,在硕士难度Fate-H和博士难度Fate-X评估集中分别解决80%和33%问题,刷新多项SOTA表现。技术报告已公开,后续将开放API链接。
原文链接
12月23日,华为数据存储与中科弘云联合发布AI推理加速解决方案。该方案以华为OceanStor A系列存储为数据底座,结合中科弘云HyperCN平台,优化长序列推理体验。方案支持英伟达、昇腾、寒武纪等多元算力,兼容主流框架,并通过Kubernetes实现无缝对接。其核心优势包括异构管理、细粒度算力调度、推理加速及端到端AI工具链。实测显示,在智能问答场景中,首Token时延降低57.5%;在长文档推理中,序列长度为39K时,并发能力提升86%,吞吐提升36%。目前,该方案已在能源电力、智能制造等领域启动试点应用。
原文链接
标题:计算所严明玉团队新作:Attention 并非永远是瓶颈,多 GPU 并不一定更快
随着大语言模型逐步应用于实际场景,推理性能成为落地的关键挑战。模型规模扩大、上下文增长以及 RAG、MoE 等新方法的引入,使得延迟、吞吐和能耗问题更加复杂。中国科学院计算所严明玉团队联合中国电信云计算研究...
原文链接
12月20日,SGLang AI金融π对在杭州举办,聚焦大模型推理效率问题。活动中,昇腾作为算力平台被多次提及,现已原生支持SGLang推理引擎,DeepSeek、Qwen等模型可直接运行无需修改代码。SGLang通过HiCache、Mooncake等系统能力优化高并发、长上下文推理场景,并显著提升强化学习效率。昇腾与SGLang深度共建,优化覆盖多模态生成、量化及图模式支持,实现高性能推理。活动还展示了昇腾在真实业务场景中的灰度测试成果,未来将围绕推理系统持续投入,构建开源生态协作能力,推动AI算力规模化稳定运行。
原文链接
标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务
正文:
在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现...
原文链接
12月17日,2025小米人车家全生态合作伙伴大会举行,Xiaomi MiMo大模型负责人罗福莉完成入职后首秀。她介绍了新发布的开源MoE模型MiMo-V2-Flash,该模型以极致推理效率为核心设计,通过3层MTP推理加速并行Token验证,实现2.0~2.6倍推理速度提升。总参数达309B(激活15B)的MiMo-V2-Flash在代码和Agent评测基准中位列全球开源模型Top2,并具备模拟世界能力,如用HTML写操作系统、模拟太阳系等。罗福莉还展望下一代智能体系统,认为其应为真正理解世界并与之共存的“智能体”,而非简单的语言模拟器。
原文链接
加载更多
暂无内容