1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025

华为诺亚方舟实验室提出了一种全新推理加速框架——视觉感知投机推理(ViSpec),在不牺牲生成质量的前提下,将多模态大模型(VLM)推理速度最高提升3.22倍。这一突破性成果已入选NeurIPS 2025。

目前,投机推理技术在纯文本领域表现优异,但在多模态任务中却因视觉信息处理难题而受限,加速效果不足1.5倍。ViSpec通过三大创新设计解决了这一问题:

  1. 轻量级视觉适配器:借鉴Q-Former思想,将大量冗余的图像嵌入压缩为少量紧凑表征,显著降低草稿模型的计算负担,同时保留关键信息。
  2. 全局视觉特征注入:通过注入全局特征向量,确保长文本生成过程中图像信息的持续影响,避免“中间遗忘”效应。
  3. 合成长回复数据集与训练策略:通过修改现有数据集指令生成高质量长回复数据,并结合专门训练方法,防止草稿模型过拟合,提升泛化能力。

实验表明,ViSpec在多个主流VLM(如LLaVA、Qwen2.5-VL)上实现了1.85至3.22倍的加速,平均加速比达2.5倍,且生成质量无损。消融实验进一步验证了各模块的有效性,图像嵌入压缩、全局特征注入和数据合成分别贡献了30%、7%和30%的性能提升。

ViSpec的提出为VLM的实际应用铺平了道路,未来有望在手机、汽车等边缘设备上实现更高效、智能的人机交互。

论文链接:https://arxiv.org/abs/2509.15235
项目地址:https://github.com/KangJialiang/ViSpec

原文链接
本文链接:https://kx.umi6.com/article/25933.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中科大/华为诺亚出手!芯片性能≠布局评分,EDA物理设计框架全面开源
2024-08-12 14:57:55
阶跃星辰发布新一代基础大模型Step3
2025-07-25 17:34:14
被简单字谜“打回原形”:大模型只是单向推理者?
2024-07-25 22:19:55
AI写代码新姿势:一个截图,代替千行代码
2025-02-22 21:43:44
o3深度解读:OpenAI终于发力,agent产品危险了吗?
2025-04-25 22:26:08
多模态推理最高加速3.2倍!华为诺亚新算法入选NeurIPS 2025
2025-09-26 14:29:23
AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%
2025-05-29 15:35:22
昆仑万维发布并开源 Skywork-R1V 3.0,多模态推理能力逼近人类专家水平
2025-07-09 11:04:18
自变量机器人:统一框架下的具身多模态推理
2025-06-20 21:06:19
Kimi 16B胜GPT-4o!开源视觉推理模型:MoE架构,推理时仅激活2.8B
2025-04-10 13:47:48
DeepMind率先提出CoF:视频模型有自己的思维链
2025-09-28 11:52:38
世界著名机器人专家“泼冷水”:人形机器人泡沫注定会破裂!
2025-09-27 17:43:53
AI是泡沫吗?一个实用框架来回答科技界最大的疑问
2025-09-28 10:53:01
24小时热文
更多
扫一扫体验小程序