
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理
正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。
上海交通大学与上海人工...
原文链接
10月10日,vivo发布行业首个3B端侧多模态推理大模型“蓝心3B”,集成五大核心能力,支持128K上下文。该模型在OpenCompass多模态榜单中超越所有8B模型,SuperCLUE评测中位列10B以内总榜第一,并在中国信通院测试中获评“L3卓越级”。此外,vivo升级了蓝心图像大模型,提升图文一致性和美观度,突破长文本渲染难题,推出多项AI修图功能,进一步强化终端智能服务能力。
原文链接
用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架
多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LI...
原文链接
9月30日,全球顶尖AI科学家、IEEE Fellow许主洪转岗加入阿里通义团队,将负责多模态交互模型方向。许主洪拥有超20年AI学术与产业经验,曾发表300多篇顶级论文,被引用超5万次,并获斯坦福全球顶尖1%科学家称号。他曾任Salesforce副总裁,创立多模态AI公司HyperAGI,是业内少有的产学研多栖专家。今年年初,他已加入阿里,担任集团副总裁及智能信息事业群首席科学家,负责多模态基础模型研究。6月,他在上海世界移动通信大会上发表演讲,以夸克App的AI功能为例讲解多模态大模型应用场景。
原文链接
9月19日,生数科技宣布完成数亿元人民币A轮融资,由博华资本领投,百度战投、启明创投等跟投。资金将用于多模态大模型研发及全球商业布局。公司核心产品Vidu系列覆盖视频、图片和音频生成能力,其参考生图功能支持7张参考图输入,突破多主体一致性难题。上线8个月,Vidu年度经常性收入突破2000万美元,业务覆盖200+国家和地区,生成视频超4亿。生数科技与京东、亚马逊、荣耀等头部企业达成合作,商业化布局领先行业。新一轮融资标志资本市场对多模态赛道的认可,或推动AI视频生成市场新格局。
原文链接
2025年9月,商汤科技的「日日新V6.5」多模态大模型以82.2分登顶OpenCompass全球多模态大模型榜单,超越Gemini 2.5 Pro和GPT-5等国际顶尖模型。该模型率先在国内突破“图文交错思维链”技术,具备逻辑与形象思维结合能力,并通过轻量化视觉编码器和加深MLLM主干网络实现3倍效率提升。商汤以“基础设施-模型-应用”三位一体战略推动多模态AI发展,致力于通向通用人工智能(AGI)。OpenCompass由上海人工智能实验室推出,是权威的大模型评测平台,其多模态榜单采用主客观结合策略,被业界视为反映大模型应用价值的重要参考。
原文链接
近日,优必选自主研发的人形机器人Walker系列的“最强大脑”——百亿参数多模态大模型Thinker,在微软、谷歌等发起的三大国际权威基准测试(MS COCO Detection Challenge、RoboVQA与Egoplan-bench2)中斩获四项全球第一。此次竞争吸引了英伟达、北京智源研究院等顶尖团队参与。Thinker通过自研视觉编码器、超大规模参数架构和时序增强算法等创新技术,显著提升了复杂环境感知与长程任务规划能力,为工业场景应用奠定基础。搭载Thinker的Walker S2机器人在工业任务中的规划精度提升超20%。此外,优必选宣布将逐步开源工业场景数据集与基础模型,推动人形机器人生态发展。
原文链接
9月3日,上海AI实验室开源多模态大模型书生・万象3.5(InternVL3.5),参数覆盖10亿至2410亿,适用于多种场景。旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获77.7分,超越GPT-5的多模态感知能力,并领跑开源文本能力。相比上一代,新版本在GUI交互、具身空间感知和矢量图形生成等任务显著提升。其GUI交互性能达92.9分,Windows自动化操作领先Claude-3.7-Sonnet;具身智能体测试中路径规划能力超Gemini-2.5-Pro;矢量图形生成刷新开源纪录。此外,InternVL3.5支持跨平台操作,具备复杂场景泛化能力,助力机器人高效完成物理交互任务。目前全系列下载量突破2300万次,相关代码与模型已开源。
原文链接
9月3日,上海AI实验室宣布开源通用多模态大模型书生·万象3.5(InternVL3.5)。本次开源涵盖9种尺寸模型,参数量从10亿到2410亿不等。旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中取得77.7分,为开源模型最高分,其多模态感知能力超越GPT-5,文本能力领先主流开源多模态模型。相比InternVL3.0,新版本在GUI智能体、具身空间感知、矢量图像理解与生成等任务上显著提升。
原文链接
8月28日,SuperCLUE-VLM多模态视觉语言模型评测榜单发布,百度ERNIE-4.5-Turbo-VL以66.47分并列国内第一,仅次于Gemini-2.5-Pro和GPT-5(high)。本次评测覆盖15款国内外模型,围绕基础认知、视觉推理和应用三大维度展开,全面评估真实场景任务能力。分析指出,文心大模型在多模态领域表现突出,尤其在视觉推理与应用等高阶任务上进步显著,展现了中国在该领域的竞争潜力。此前,百度于6月30日开源文心4.5系列模型,其跨模态能力支持超100种语言交互,覆盖文档处理、视频管理等核心场景。依托全栈自研体系,飞桨文心已服务67万家企业,开发者超2185万。
原文链接
加载更多

暂无内容