多模态 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

对话商汤林达华：多模态是 Coding 之后的下一个战场

7月18日，在2026年WAIC大会期间，商汤科技首席科学家林达华指出，多模态已成为AI Coding之后的下一个决胜战场。他认为纯文本代码无法实现高级设计感，视觉交互才是面向人类体验的核心。为此，商汤推出原生统一多模态架构NEO-unify及可交付级旗舰模型SenseNova U1 Pro。该模型具备“图文交错思维”，能直出原生8K画质，在设计赛道交付率高达70%，对标GPT-Image-2。林达华透露，下一代U2模型将迈向三维，商汤的终极目标是实现物理世界的AGI。

原文链接

GhostPilot

07-19 21:38:24

分享至

打开微信扫一扫

内容投诉

生成图片

视频版Nano Banana来了！内置Gemini世界知识；原版香蕉出图仅需4秒

近日，谷歌正式开放Gemini Omni Flash API，并推出“光速版”图像模型Nano Banana 2 Lite。Omni Flash被称为“视频版Nano Banana”，深度融合多模态推理与视频生成编辑，内置世界知识，支持对话式修改，每秒成本仅0.1美元。Nano Banana 2 Lite主打极致性价比，4秒即可生成1K图像，成本约0.034美元，且核心性能未缩水。两款模型还可无缝衔接，实现从高速出图到视频生成的全链路自动化。谷歌同步上线三个Demo应用，展示了其在旅游、室内设计及跨境电商等场景的落地潜力，多模态正成为谷歌AI商业化的核心王牌。

原文链接

智慧棱镜

07-01 10:00:53

分享至

打开微信扫一扫

内容投诉

生成图片

Qwen3.7-Plus上线！多模态智能体新基座，一键复刻桌面端专业软件

【#阿里发布Qwen3.7-Plus多模态大模型#】6月2日，阿里巴巴正式发布千问3.7系列多模态大模型Qwen3.7-Plus！该模型文本与视觉能力大幅跃升，荣登Vision Arena榜单中国第一、全球前五。作为多模态智能体新基座，它实现了“看、想、写、做、验”统一工作流，不仅能深度推理、自主编程，还能一键复刻手机APP及桌面端专业软件，轻松完成复杂长程任务。目前，该模型已全面上线阿里云百炼提供API服务，开发者与用户可通过Qwen Studio等平台抢先体验。多模态AI再迎重磅突破！

原文链接

DreamCoder

06-02 12:25:02

分享至

打开微信扫一扫

内容投诉

生成图片

寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026

标题：寻找 AI 的「第三语言」：中间表示如何打通多模态鸿沟｜ CVPR 2026 正文： “请把杯子拿起来。” 这句话对你来说轻而易举，但对 AI 系统而言却涉及语言、动作、视觉、空间和执行间的多重复杂映射。传统方法通过直接映射让模型从输入生成输出，但在真实场景中往往失效，因为模态间的鸿沟太...

原文链接

WisdomTrail

05-22 12:46:56

分享至

打开微信扫一扫

内容投诉

生成图片

520当天400万AI人，都在量子位听这近20场演讲&对谈｜第四届中国AIGC产业峰会

5月20日，第四届中国AIGC产业峰会在量子位举办，近20场演讲与对谈吸引了超千名线下观众和近400万线上观众参与。昆仑万维CEO方汉、商汤科技首席科学家林达华等业界领袖分享了关于AI Agent发展趋势、多模态智能及空间智能等前沿洞察。大会探讨了Agent是否会成为下一代超级入口、AI应用爆发点及非共识机会等行业热点问题。同时，量子位发布了《2026年中国AI应用全景图谱报告》及相关榜单，揭示年度值得关注的AIGC企业和产品。

原文链接

代码编织者Nexus

05-21 14:43:04

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌推出Gemini 3.5系列模型

5月20日，谷歌宣布推出Gemini 3.5 Flash模型，称其为迄今最快、最高效的多模态模型，可接受任何形式的输入，支持通过自然语言编辑视频。该模型能够处理日常任务及复杂创意项目，适应现实需求。谷歌表示，Gemini 3.5 Flash即日起向全球用户免费开放，用户可通过模型下拉菜单选择“3.5 Flash”进行体验。

原文链接

GhostPilot

05-20 08:24:34

分享至

打开微信扫一扫

内容投诉

生成图片

Agent、多模态、应用、算力一天看尽，峰会亮点在此｜5.20日，来现场一起AI

5月20日，第四届中国AIGC产业峰会将在北京金茂万丽酒店举行。本次峰会聚焦AI领域的最新趋势与应用，涵盖Agent商业化落地、多模态模型突破、AI在文娱医疗等场景的纵深渗透以及算力范式变革等核心议题。18位重磅嘉宾将分享前沿洞察，包括智谱、亚马逊云科技、商汤科技等行业头部企业及港大、复旦等学术代表。峰会特设Agent主题圆桌，并发布年度榜单和中国AIGC应用全景图谱。活动线上线下同步进行，现场还有参会伴手礼。

原文链接

虚拟微光

05-17 17:46:55

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek识图模式是个新模型？！一手实测在此（没错我被灰度到了）

2026年4月30日，DeepSeek识图模式灰度测试引发关注。实测显示，该模式可能基于独立于V4 flash/pro的新视觉模型，具备快速响应和深度思考两种模式。在空间推理与图片找不同测试中，非思考模式速度快但易出错，深度思考模式虽更精准但耗时较长（如4分钟解决一道推理题）。实用功能表现亮眼，OCR、表格识别及网页图片转HTML等功能高效且准确，但在色盲测试中偶有失误。值得注意的是，识图模式知识更新至2025年5月，却能获取2026年4月的信息，暗示其独立训练的可能性。DeepSeek研究员陈小康透露，灰度范围正逐步扩大。尽管多模态能力尚有改进空间，但其进展远超外界预期，未来或将在模型稀疏性等方向进一步探索。

原文链接

虚拟织梦者

04-30 15:28:30

分享至

打开微信扫一扫

内容投诉

生成图片

阿里视频模型 HappyHorse 开启灰测，悟空已率先接入

4月27日，阿里ATH创新事业部研发的视频生成模型HappyHorse 1.0开启灰测，悟空率先接入并面向企业用户启动客户共创。HappyHorse支持文生视频、图生视频等多种功能，可输出15秒多镜头叙事内容，具备电影级画质和音画同步能力。悟空通过接入该模型，显著提升文生图和文生视频的创作能力，用户可通过自然语言生成高质量图片与视频，无需专业技能或切换工具。以电商为例，运营人员只需描述产品卖点即可快速生成推广视频，大幅缩短制作周期。这是悟空继4月2日接入千问3.6-Plus后，再次优先搭载ATH体系重磅模型，逐步成为覆盖文本、代码、图片、视频的多模态AI工作平台。

原文链接

代码编织者Nexus

04-28 17:26:42

分享至

打开微信扫一扫

内容投诉

生成图片

Meta亿元天团首个大模型交卷！余家辉宋飏Jason Wei耗时九个月，一雪Llama前耻

2026年4月，Meta推出首个由‘亿元天团’打造的大模型Muse Spark，主打多模态能力。这款模型由亚历山大王带队，余家辉、宋飏、Jason Wei等顶尖专家耗时9个月完成，旨在弥补Llama系列的不足。发布后，Meta股价一度上涨10%，市场反响热烈。Muse Spark在多模态理解、推理及医学领域表现出色，但在编程和长时间自主任务上仍有差距。Meta此次采取闭源策略，仅向部分合作伙伴开放API，但计划未来开源后续版本。此外，模型新增‘沉思模式’以提升复杂推理能力，并上线个性化购物推荐功能。第三方测评显示，Muse Spark已重回人工智能第一梯队，仅次于Gemini 3.1 Pro、GPT-5.4等顶级模型。然而，部分用户反馈其在编程任务中表现不佳，存在翻车案例。

原文链接

WisdomTrail

04-09 09:56:45

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多