多模态推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025

多模态推理最高加速3.2倍！华为诺亚新算法入选NeurIPS 2025 华为诺亚方舟实验室提出了一种全新推理加速框架——视觉感知投机推理（ViSpec），在不牺牲生成质量的前提下，将多模态大模型（VLM）推理速度最高提升3.22倍。这一突破性成果已入选NeurIPS 2025。目前，投机推...

原文链接

Nebula

09-26 14:29:23

ViSpec

华为诺亚

多模态推理

分享至

打开微信扫一扫

内容投诉

生成图片

叫板谷歌！马斯克xAI发布Grok-4-Fast 性能比肩Gemini 2.5

9月21日，马斯克旗下xAI公司发布新型多模态推理模型Grok-4 Fast，性能媲美行业领先水平。该模型支持高达2M上下文窗口，具备强大的复杂任务处理能力，并与X平台深度集成，可解析帖子、提供链接及关联YouTube视频。其采用强化学习训练，能自主调用外部工具，搭载智能搜索引擎，实时浏览网页和X平台内容，整合多模态信息并输出分析结果。目前，Grok-4 Fast已向所有用户开放，并在Auto模式下自动处理复杂查询。此外，xAI还推出grok-4-fast-reasoning和grok-4-fast-non-reasoning两款新模型，现已通过API开放使用。

原文链接

Journeyman

09-21 16:46:00

Grok-4-Fast

xAI公司

多模态推理模型

分享至

打开微信扫一扫

内容投诉

生成图片

WAIC 2025｜阶跃发布新一代基模 Step 3：原生多模态，推理效率行业领先

2025世界人工智能大会前夕，阶跃星辰于7月25日在上海发布新一代基础大模型Step 3，主打原生多模态与行业领先的推理效率，将于7月31日开源。该模型采用MoE架构，参数量达321B，在MMMU等榜单中取得开源多模态推理模型的最优成绩。阶跃星辰联合多家芯片厂商发起“模芯生态创新联盟”，推动全产业链协同创新，并与上海国投达成深度战略合作，加速大模型应用落地。目前，Step 3已适配华为昇腾等芯片，广泛应用于手机、汽车及金融等领域。

原文链接

AGI探路者

07-25 22:30:52

Step 3

多模态推理模型

模芯生态创新联盟

分享至

打开微信扫一扫

内容投诉

生成图片

阶跃星辰发布新一代基础大模型Step3

7月25日，阶跃星辰发布新一代基础大模型Step3，主打多模态推理能力，在国产芯片上32K上下文推理效率最高可达DeepSeek R1的300%。据悉，Step3计划于7月31日向全球开源，进一步推动技术共享与创新。（记者黄心怡）

原文链接

像素宇宙

07-25 17:34:14

Step3

多模态推理

阶跃星辰

分享至

打开微信扫一扫

内容投诉

生成图片

昆仑万维发布并开源 Skywork-R1V 3.0，多模态推理能力逼近人类专家水平

7月9日，昆仑万维发布并开源Skywork-R1V 3.0，其多模态推理能力逼近人类专家水平。新版本通过强化学习策略显著提升跨模态推理能力，在复杂逻辑建模和跨学科泛化上表现优异。模型基于InternVL-38B蒸馏数据训练，仅用约1.2万条监督微调样本和1.3万条强化学习样本，实现高效训练。在权威评测中，Skywork-R1V 3.0取得多项领先成绩：MMMU评测达76.0分，超越Claude-3.7-Sonnet和GPT-4.5；EMMA-Mini(CoT)评分40.3分，居开源模型首位；数学、物理、逻辑等领域均表现出色，部分指标超闭源模型。目前，模型已开放下载，涵盖HuggingFace、GitHub等平台。

原文链接

神经网络领航员

07-09 11:04:18

Skywork-R1V 3.0

多模态推理

开源模型

分享至

打开微信扫一扫

内容投诉

生成图片

自变量机器人：统一框架下的具身多模态推理

标题：自变量机器人：统一框架下的具身多模态推理正文：当熟练的木匠拿起锤子时，锤子仿佛消失了，因为它已融入使用者的本能。然而，最先进的机器人仍需反复识别工具并规划使用，这种割裂的认知方式使它们无法达到人类的直觉水平。具身智能的突破需要架构革新，而非现有系统的修补。自变量机器人提出，应摒弃多...

原文链接

阿达旻

06-20 21:06:19

具身智能

多模态推理

统一架构

分享至

打开微信扫一扫

内容投诉

生成图片

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

标题：AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55% 当前顶尖AI模型能否真正“看懂”物理图像？全新基准SeePhys给出了答案，结果显示顶级模型准确率不足55%。 SeePhys由中山大学、苏黎世联邦理工学院、华为诺亚方舟实验室和香港大学联合推出，涵盖从初中到博士资格考试...

原文链接

梦境编程师

05-29 15:35:22

AI模型

多模态推理

物理图像

分享至

打开微信扫一扫

内容投诉

生成图片

拿下38项第一！字节发布Seed1.5-VL多模态推理模型

标题：字节发布Seed1.5-VL多模态推理模型：轻量高效，表现卓越正文：在60项主流基准测试中，字节发布的轻量级多模态推理模型Seed1.5-VL拿下了38项第一。该模型仅包含532M视觉编码器和200亿参数，却能在复杂谜题推理、OCR、图表理解及3D空间理解等方面媲美更大规模的顶级模型。例如...

原文链接

蝶舞CyberSwirl

05-14 15:15:44

Seed1.5-VL

多模态推理模型

字节跳动

分享至

打开微信扫一扫

内容投诉

生成图片

o3深度解读：OpenAI终于发力，agent产品危险了吗？

标题：o3深度解读：OpenAI发力，agent产品何去何从？ OpenAI在2025年Q1推出的新模型o3表现惊艳，其融合的tool use能力覆盖了agent产品常用场景。o3和Manus代表了两类技术路线：一种是将tool use内化到模型中，另一种则是通过外置框架完成任务。OpenAI计划让...

原文链接