综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
SFT别急着接RL!你的多模态大模型可能一直在“带伤训练”
PRISM团队 投稿
量子位 | 公众号 QbitAI
在多模态大模型(MLLM)的后训练中,行业普遍采用“先SFT,再RL”的两步范式。然而,香港科技大学(广州)、南洋理工大学、清华大学等机构的研究发现,SFT不仅未能为RL铺路,反而...
原文链接
近日,智象未来(HiDream.ai)完成超5亿元新一轮融资,由东方富海、安徽省投资集团等领投,老股东持续加注。资金将用于研发下一代原生全模态世界模型、企业服务智能体建设及全球市场拓展。智象未来在多模态生成式AI领域技术领先,其图像生成模型HiDream-I1和视频生成DiT架构模型均取得国际认可。公司以“1+1+3”商业化模式覆盖全球超3000万用户及4万家企业客户,业务涵盖商业营销、影视创作和社媒内容创作。此外,智象与诺亦腾机器人、百图生科等合作,推动具身智能和生命科学领域创新。创始人梅涛表示,公司将从多模态迈向全模态,构建统一的物理与数字世界底层架构。
原文链接
4月10日,据《科创板日报》报道,近期备受关注的多模态大模型HappyHorse或由阿里巴巴旗下团队研发。该模型已在海外社交平台注册账号,首位关注者为阿里巴巴集团。消息称,HappyHorse由淘天集团未来生活实验室张迪领导的团队开发,目前该实验室已独立并归属于ATH事业群的AI创新事业部。此前,HappyHorse-1.0以1332的Elo积分在文本转视频(无音频)领域排名第一,领先第二名Dreamina Seedance 2.0近60分,引发行业热议。(记者 黄心怡)
原文链接
标题:ReCALL框架化解生成式与判别式冲突,大模型检索性能全面超越SOTA|CVPR’26
正文:
生成式大模型在图像检索任务中常因范式冲突导致能力退化,这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系,解决了生成式到判别式的适...
原文链接
标题:北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
近年来,多模态大模型在视觉理解任务中表现优异,但在层级视觉识别中仍存在不足。例如,生物分类体系中的“界—门—纲—目—科—属—种”等层级结构需要模型理解类别间的语义关系,而现有模型常因扁平分类框架导致层级冲突或路径...
原文链接
正文:2026年3月5日,YuanLab.ai团队正式开源发布万亿参数规模的多模态大模型‘源Yuan3.0 Ultra’。作为当前业界仅有的三个万亿级开源多模态模型之一,该模型采用统一多模态架构和混合专家(MoE)设计,通过LAEP算法优化参数至1010B,预训练效率提升49%。其在复杂文档理解、多源信息检索与整合、数据分析等企业级任务中表现突出,超越Claude Opus、Gemini Pro等前沿模型。此外,模型引入Localized Filtering Attention机制,强化语义关系建模能力,并提出Fast-thinking强化学习范式,显著提升推理效率。Yuan3.0 Ultra已全面开源,支持社区二次开发,旨在推动大模型从能力展示走向规模化落地,为企业Agent应用提供深度优化的解决方案。
原文链接
2月5日,生数科技宣布完成超6亿元人民币A+轮融资,由中关村科学城公司和星连资本领投,多家机构跟投。其多模态大模型Vidu在国际权威榜单中排名中国第一、全球第二,超越Runway Gen-4.5、Google Veo3.1等知名模型。Vidu于2024年7月全球上线,首创“参考生视频”技术,解决多主体连续一致性难题,并以全球最快生成速度领先行业。2025年12月,生数科技开源TurboDiffusion框架,将视频生成效率提升100-200倍。目前,Vidu已成为全球内容创作者及企业首选工具,2025年实现用户与收入超10倍增长,赋能广告、影视、教育等多个行业。
原文链接
2026年2月5日,生数科技宣布完成超6亿元人民币A+轮融资,由中关村科学城公司和星连资本领投,万兴科技、视觉中国等战略投资。公司成立于2023年3月,专注于多模态通用大模型研发,其核心产品Vidu于2024年7月上线,首创“参考生视频”技术,解决商业视频生成难题,并在速度上领先OpenAI Sora等竞品10倍以上。2025年12月,生数科技开源TurboDiffusion框架,将视频生成效率提升100-200倍。目前,Vidu已成全球内容创作者及企业首选工具,用户和收入实现10倍增长。CEO骆怡航表示,公司将推动多模态大模型成为新一代生产力,重构内容生产与交互体验。创始人朱军强调,未来将持续探索AI在物理世界的应用价值。
原文链接
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI
一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT...
原文链接
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中,提出了一种全新的“类人视觉搜索”(Humanoid Visual Search, HVS)任务,让大模型能够...
原文链接
加载更多
暂无内容