多模态 - AI优秘圈

彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器

2026年3月，商汤科技联合南洋理工大学发布全新多模态模型架构NEO-unify。该架构突破性地砍掉视觉编码器（VE）和变分自编码器（VAE），采用近似无损的像素与文字作为原生输入，实现‘原生、统一、端到端’的多模态处理。通过创新的混合变换器（MoT）架构，打通视觉与语言的‘理解+生成’双向能力，显著提升数据与算力利用效率。实验表明，NEO-unify在图像重建与编辑任务中表现出色，初步训练后即取得优异指标，并展现更高数据训练效率。这一成果标志着多模态AI从‘模态连接’向‘原生统一智能体’迈进，为跨模态认知与生成一体化奠定基础。相关研发正持续迭代，未来将陆续开源。

原文链接

QuantumHacker

03-07 13:31:18

NEO-unify

多模态

无编码器

分享至

打开微信扫一扫

内容投诉

生成图片

企业级OpenClaw最强拍档来了！万亿参数的国产多模态大模型，刚刚开源发布

正文：2026年3月5日，YuanLab.ai团队正式开源发布万亿参数规模的多模态大模型‘源Yuan3.0 Ultra’。作为当前业界仅有的三个万亿级开源多模态模型之一，该模型采用统一多模态架构和混合专家（MoE）设计，通过LAEP算法优化参数至1010B，预训练效率提升49%。其在复杂文档理解、多源信息检索与整合、数据分析等企业级任务中表现突出，超越Claude Opus、Gemini Pro等前沿模型。此外，模型引入Localized Filtering Attention机制，强化语义关系建模能力，并提出Fast-thinking强化学习范式，显著提升推理效率。Yuan3.0 Ultra已全面开源，支持社区二次开发，旨在推动大模型从能力展示走向规模化落地，为企业Agent应用提供深度优化的解决方案。

原文链接

未来笔触

03-05 19:45:14

Yuan3.0 Ultra

多模态大模型

开源

分享至

打开微信扫一扫

内容投诉

生成图片

国产新一代大模型MiniMax 3上半年发布：多模态、全球顶级性能

3月3日，国产AI大模型MiniMax 3预计将在上半年发布，性能有望匹敌全球顶级模型，并支持多模态理解。稀宇科技此前于2月13日推出MiniMax M2.5，称其为全球首个为智能体场景原生设计的生产级旗舰模型，发布仅七天调用量突破3.07T tokens，成为开发者首选。在OpenRouter统计中，M2.5位列API调用量第一，国产模型占据前三，超越美国公司。稀宇科技2月ARR收入达1.5亿美元，提前完成目标。官方表示，M3将解决知识容量限制问题，并引入更多预训练与结构创新，进一步提升效率与实践能力。

原文链接

梦境编程师

03-03 22:38:04

MiniMax

国产大模型

多模态

分享至

打开微信扫一扫

内容投诉

生成图片

杀进全球榜TOP2！国产视频模型黑马刚刚出现了

2026年2月，昆仑天工推出的SkyReels-V4视频模型在全球权威榜单中跃居第二，仅次于Veo 3.1，超越Sora 2。该模型支持多模态输入（文本、图像、音频等），实现一体化生成与编辑，具备精准的动作迁移、音频驱动和风格融合能力。其创新点包括双流MMDiT架构，音视频联合生成及高效时序拼接技术，输出达1080p、32帧、15秒的电影级水准。此外，SkyReels-V4还提供专业级修复、全维度编辑和高品质音频生成等功能，应用场景涵盖短剧制作、视效大片生成等。昆仑天工通过自研多模态框架持续优化产品矩阵，并结合全球化运营经验加速落地，成为多模态视频生成领域的重要竞争者。

原文链接

蝶舞CyberSwirl

02-27 16:52:23

SkyReels-V4

多模态输入

音视频生成

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌突发Gemini 3.1 Pro！首次采用「.1」版本号，推理性能×2的那种

2026年2月，谷歌发布Gemini 3.1 Pro，首次采用“.1”小版本号更新。相比去年11月发布的3 Pro，3.1 Pro在推理性能上提升2倍，多模态生成和语义理解显著增强。新模型支持1M上下文，知识截止日期为2025年1月，在可视化、代码生成及多语言处理方面表现突出。例如，可生成交互式3D内容和复杂教育应用。目前，该模型已在Gemini应用、API及NotebookLM中上线，定价与3 Pro持平，但性能接近更昂贵的3 Deep Think，成本效益大幅提升。网友评价称其‘直接碾压其他模型’，认为此次更新进一步推动了AI模型的成本-智能优化曲线。

原文链接

WisdomTrail

02-20 10:16:31

Gemini 3.1 Pro

多模态生成

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

最强开源大模型除夕登场！397B参数千问3.5超越Gemini 3，百万Tokens低至8毛

2026年除夕，阿里发布开源大模型Qwen3.5-Plus，参数达3970亿，性能媲美Gemini-3-Pro和GPT-5.2，多项基准测试领先。其部署成本降低60%，推理效率提升19倍，百万Tokens输入低至0.8元，支持201种语言，覆盖多模态任务如视频处理、视觉推理等。千问3.5通过架构创新实现高效能与低成本，采用混合注意力机制、稀疏MoE架构等技术，训练成本减少90%。此外，阿里已累计开源400多个模型，全球下载量超10亿次，开发者衍生模型超20万个，进一步推动开源生态发展。旗舰版Qwen3.5-Max预计年后发布，更多模型将在春节期间陆续推出。

原文链接

元界筑梦师

02-16 19:34:51

千问3.5

多模态

开源模型

分享至

打开微信扫一扫

内容投诉

生成图片

Seedance2.0炸场之后豆包Seed2.0能否再度勇攀高峰

2月14日，字节跳动发布豆包大模型2.0，标志着其正式进入“原生多模态Agent”时代。新模型通过底层能力重构，实现了从“信息分发”到“任务处理”的跨越，具备逻辑推理、多模态理解和稳定工具调用能力。在性能上，豆包2.0在复杂任务拆解和长链路执行中表现优异，同时成本优势显著，Pro版输入仅需3.2元/百万tokens，Lite版单价低至0.6元。此次升级还优化了企业生产环境适配性，提升了格式输出稳定性与上下文管理能力。结合火山引擎的AI云服务，字节试图构建从模型到云端的闭环AI生态，进一步扩大市场占位。CEO梁汝波将年度关键词定为“勇攀高峰”，彰显字节在AI领域的野心与布局。

原文链接

像素宇宙

02-15 17:31:04

多模态能力

火山引擎

豆包2.0

分享至

打开微信扫一扫

内容投诉

生成图片

首个多模态记忆湖MemoryLake发布：AI基础设施迈入记忆驱动时代

2025年1月，质变科技发布全球首个多模态记忆平台MemoryLake，标志着AI基础设施从“数据驱动”迈向“记忆驱动”时代。该平台由MemoryLake-D1大模型、记忆引擎和多模态存储与计算平台三大核心组件构成，解决多模态信息融合、数据碎片化、决策不准确等企业AI落地痛点。其记忆引擎在长程对话基准测试中以94%的综合得分全球领先，支持复杂推理与跨概念检索；多模态数据平台可管理超10万亿条记录，实现毫秒级检索。MemoryLake已在金融、制造、游戏等行业服务超150万用户和1.5万家企业，助力复杂决策、动态交互与实时风控场景智能化升级。创始人称，AI未来是记忆驱动的未来，MemoryLake为企业提供更懂业务的“记忆系统”，推动认知计算时代的到来。

原文链接

像素宇宙

02-09 13:09:39

MemoryLake

多模态记忆

认知计算

分享至

打开微信扫一扫

内容投诉

生成图片

中国第一，全球第二，视频大模型领军者生数科技完成超 6 亿元A+轮融资

2月5日，生数科技宣布完成超6亿元人民币A+轮融资，由中关村科学城公司和星连资本领投，多家机构跟投。其多模态大模型Vidu在国际权威榜单中排名中国第一、全球第二，超越Runway Gen-4.5、Google Veo3.1等知名模型。Vidu于2024年7月全球上线，首创“参考生视频”技术，解决多主体连续一致性难题，并以全球最快生成速度领先行业。2025年12月，生数科技开源TurboDiffusion框架，将视频生成效率提升100-200倍。目前，Vidu已成为全球内容创作者及企业首选工具，2025年实现用户与收入超10倍增长，赋能广告、影视、教育等多个行业。

原文链接

月光编码师

02-06 17:02:51

Vidu

多模态大模型

生数科技

分享至

打开微信扫一扫

内容投诉

生成图片

重构AI在数字和物理世界的生产力，生数科技完成超6亿元A+轮融资

2026年2月5日，生数科技宣布完成超6亿元人民币A+轮融资，由中关村科学城公司和星连资本领投，万兴科技、视觉中国等战略投资。公司成立于2023年3月，专注于多模态通用大模型研发，其核心产品Vidu于2024年7月上线，首创“参考生视频”技术，解决商业视频生成难题，并在速度上领先OpenAI Sora等竞品10倍以上。2025年12月，生数科技开源TurboDiffusion框架，将视频生成效率提升100-200倍。目前，Vidu已成全球内容创作者及企业首选工具，用户和收入实现10倍增长。CEO骆怡航表示，公司将推动多模态大模型成为新一代生产力，重构内容生产与交互体验。创始人朱军强调，未来将持续探索AI在物理世界的应用价值。

原文链接

蝶舞CyberSwirl

02-06 03:28:59

Vidu

多模态大模型

生数科技

分享至

打开微信扫一扫

内容投诉

生成图片