多模态大模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练”

SFT别急着接RL！你的多模态大模型可能一直在“带伤训练” PRISM团队投稿量子位 | 公众号 QbitAI 在多模态大模型（MLLM）的后训练中，行业普遍采用“先SFT，再RL”的两步范式。然而，香港科技大学（广州）、南洋理工大学、清华大学等机构的研究发现，SFT不仅未能为RL铺路，反而...

原文链接

智能涌动

05-17 12:36:43

分享至

打开微信扫一扫

内容投诉

生成图片

智象未来完成新一轮融资，全力打造下一代原生全模态世界模型

近日，智象未来（HiDream.ai）完成超5亿元新一轮融资，由东方富海、安徽省投资集团等领投，老股东持续加注。资金将用于研发下一代原生全模态世界模型、企业服务智能体建设及全球市场拓展。智象未来在多模态生成式AI领域技术领先，其图像生成模型HiDream-I1和视频生成DiT架构模型均取得国际认可。公司以“1+1+3”商业化模式覆盖全球超3000万用户及4万家企业客户，业务涵盖商业营销、影视创作和社媒内容创作。此外，智象与诺亦腾机器人、百图生科等合作，推动具身智能和生命科学领域创新。创始人梅涛表示，公司将从多模态迈向全模态，构建统一的物理与数字世界底层架构。

原文链接

神经网络领航员

04-16 15:04:11

分享至

打开微信扫一扫

内容投诉

生成图片

多模态大模型HappyHorse或由阿里团队研发

4月10日，据《科创板日报》报道，近期备受关注的多模态大模型HappyHorse或由阿里巴巴旗下团队研发。该模型已在海外社交平台注册账号，首位关注者为阿里巴巴集团。消息称，HappyHorse由淘天集团未来生活实验室张迪领导的团队开发，目前该实验室已独立并归属于ATH事业群的AI创新事业部。此前，HappyHorse-1.0以1332的Elo积分在文本转视频（无音频）领域排名第一，领先第二名Dreamina Seedance 2.0近60分，引发行业热议。（记者黄心怡）

原文链接

像素宇宙

04-10 10:00:47

分享至

打开微信扫一扫

内容投诉

生成图片

让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

标题：ReCALL框架化解生成式与判别式冲突，大模型检索性能全面超越SOTA｜CVPR’26 正文：生成式大模型在图像检索任务中常因范式冲突导致能力退化，这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系，解决了生成式到判别式的适...

原文链接

AI幻想空间站

04-07 00:21:55

分享至

打开微信扫一扫

内容投诉

生成图片

北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026

标题：北大王选所彭宇新团队：让多模态大模型学会「看懂物种关系」丨CVPR 2026 近年来，多模态大模型在视觉理解任务中表现优异，但在层级视觉识别中仍存在不足。例如，生物分类体系中的“界—门—纲—目—科—属—种”等层级结构需要模型理解类别间的语义关系，而现有模型常因扁平分类框架导致层级冲突或路径...

原文链接

智慧棱镜

03-18 15:28:55

分享至

打开微信扫一扫

内容投诉

生成图片

企业级OpenClaw最强拍档来了！万亿参数的国产多模态大模型，刚刚开源发布

正文：2026年3月5日，YuanLab.ai团队正式开源发布万亿参数规模的多模态大模型‘源Yuan3.0 Ultra’。作为当前业界仅有的三个万亿级开源多模态模型之一，该模型采用统一多模态架构和混合专家（MoE）设计，通过LAEP算法优化参数至1010B，预训练效率提升49%。其在复杂文档理解、多源信息检索与整合、数据分析等企业级任务中表现突出，超越Claude Opus、Gemini Pro等前沿模型。此外，模型引入Localized Filtering Attention机制，强化语义关系建模能力，并提出Fast-thinking强化学习范式，显著提升推理效率。Yuan3.0 Ultra已全面开源，支持社区二次开发，旨在推动大模型从能力展示走向规模化落地，为企业Agent应用提供深度优化的解决方案。

原文链接

未来笔触

03-05 19:45:14

分享至

打开微信扫一扫

内容投诉

生成图片

中国第一，全球第二，视频大模型领军者生数科技完成超 6 亿元A+轮融资

2月5日，生数科技宣布完成超6亿元人民币A+轮融资，由中关村科学城公司和星连资本领投，多家机构跟投。其多模态大模型Vidu在国际权威榜单中排名中国第一、全球第二，超越Runway Gen-4.5、Google Veo3.1等知名模型。Vidu于2024年7月全球上线，首创“参考生视频”技术，解决多主体连续一致性难题，并以全球最快生成速度领先行业。2025年12月，生数科技开源TurboDiffusion框架，将视频生成效率提升100-200倍。目前，Vidu已成为全球内容创作者及企业首选工具，2025年实现用户与收入超10倍增长，赋能广告、影视、教育等多个行业。

原文链接

月光编码师

02-06 17:02:51

分享至

打开微信扫一扫

内容投诉

生成图片

重构AI在数字和物理世界的生产力，生数科技完成超6亿元A+轮融资

2026年2月5日，生数科技宣布完成超6亿元人民币A+轮融资，由中关村科学城公司和星连资本领投，万兴科技、视觉中国等战略投资。公司成立于2023年3月，专注于多模态通用大模型研发，其核心产品Vidu于2024年7月上线，首创“参考生视频”技术，解决商业视频生成难题，并在速度上领先OpenAI Sora等竞品10倍以上。2025年12月，生数科技开源TurboDiffusion框架，将视频生成效率提升100-200倍。目前，Vidu已成全球内容创作者及企业首选工具，用户和收入实现10倍增长。CEO骆怡航表示，公司将推动多模态大模型成为新一代生产力，重构内容生产与交互体验。创始人朱军强调，未来将持续探索AI在物理世界的应用价值。

原文链接

蝶舞CyberSwirl

02-06 03:28:59

分享至

打开微信扫一扫

内容投诉

生成图片

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优

精准锁定「硬骨头」：难样本筛选破局SFT依赖，GRPO-only斩获感知推理双最优中兴通讯AIM团队投稿量子位 | 公众号 QbitAI 一项被AAAI 2026接收的研究，针对多模态大模型后训练的难题提出全新解决方案。研究发现，在视觉推理与感知任务中，仅用中等和困难样本训练、完全跳过SFT...

原文链接

数据炼金师

11-28 12:26:14

分享至

打开微信扫一扫

内容投诉

生成图片

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中，提出了一种全新的“类人视觉搜索”（Humanoid Visual Search, HVS）任务，让大模型能够...

原文链接