综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
中兴通讯AIM团队投稿
量子位 | 公众号 QbitAI
一项被AAAI 2026接收的研究,针对多模态大模型后训练的难题提出全新解决方案。研究发现,在视觉推理与感知任务中,仅用中等和困难样本训练、完全跳过SFT...
原文链接
大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索
纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中,提出了一种全新的“类人视觉搜索”(Humanoid Visual Search, HVS)任务,让大模型能够...
原文链接
2025年11月16日,宇树科技创始人兼CEO王兴兴在“2025人工智能+大会”上透露,宇树研发的人形机器人已能完成绝大部分工作动作,包括离线预学习和实时模仿复刻。他预测,未来十年内,AI技术将赋予机器人“理解世界”的能力,并通过多模态大模型与机器人的深度融合,使其更加敏锐和高效。(财联社、上证报)
原文链接
2025年11月16日,阶跃星辰创始人兼CEO姜大昕在2025人工智能+大会上表示,智能终端可能成为未来AI入口,并看好智能硬件在‘人・车・家’领域的应用。他指出,随着智能驾驶技术发展,汽车将成为人类的‘第三生活空间’,支持娱乐交互。阶跃星辰已布局汽车AI产品,如今年7月发布的下一代智能座舱Agent OS预览版,融合多模态大模型与端云一体技术,提供超自然交互、全融合地图导航及个性化记忆功能,为用户带来拟人化、情感化的座舱体验,推动AI与生活的深度融合。
原文链接
11月6日,在厦门举办的2025国际海洋周开幕式上,我国发布全球首个深海生境智能多模态大模型——“深海生境智能认知与探索多模态大模型”。该模型由中国大洋事务管理局指导、多家科研机构联合研发,是联合国“海洋十年”计划的重要成果,具备深海智能感知、全域推演、治理决策生成及沉浸式导览功能,目前已完成对一座深海海山和一处热液区的认知系统构建。未来,模型将向全球科研机构开放,扩展覆盖深海多种生境。同时,《APEC海洋可持续发展报告》也在会上发布,首次提出“五位一体”框架,为亚太海洋可持续发展提供科学支持。
原文链接
10月26日,在第32届中国国际广告节期间,抖音集团旗下巨量引擎首次公开了其在AI广告治理领域的自研多模态大模型。该模型是其“全链路治理+以AI治AI”广告安全策略的核心技术支撑,可实现90%的素材在10分钟内完成审核。今年第三季度,巨量引擎已前置拦截84万余个涉AI广告违规素材,显著提升了广告风险治理效率。这一技术突破为行业提供了高效解决方案,并展示了AI在内容安全领域的应用潜力。
原文链接
标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理
正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。
上海交通大学与上海人工...
原文链接
10月10日,vivo发布行业首个3B端侧多模态推理大模型“蓝心3B”,集成五大核心能力,支持128K上下文。该模型在OpenCompass多模态榜单中超越所有8B模型,SuperCLUE评测中位列10B以内总榜第一,并在中国信通院测试中获评“L3卓越级”。此外,vivo升级了蓝心图像大模型,提升图文一致性和美观度,突破长文本渲染难题,推出多项AI修图功能,进一步强化终端智能服务能力。
原文链接
用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架
多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LI...
原文链接
9月30日,全球顶尖AI科学家、IEEE Fellow许主洪转岗加入阿里通义团队,将负责多模态交互模型方向。许主洪拥有超20年AI学术与产业经验,曾发表300多篇顶级论文,被引用超5万次,并获斯坦福全球顶尖1%科学家称号。他曾任Salesforce副总裁,创立多模态AI公司HyperAGI,是业内少有的产学研多栖专家。今年年初,他已加入阿里,担任集团副总裁及智能信息事业群首席科学家,负责多模态基础模型研究。6月,他在上海世界移动通信大会上发表演讲,以夸克App的AI功能为例讲解多模态大模型应用场景。
原文链接
加载更多
暂无内容