
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月,AI应用公司LiblibAI完成1.3亿美元B轮融资,为国内AI应用赛道年度最大融资。本轮融资由红杉中国、CMC资本等领投,老股东超额增持。LiblibAI成立于2023年底,现已成为中国最大的多模态模型与创作社区,覆盖图像、视频、3D等能力,孵化超2000万创作者。其“工具集成+社区生态”战略突出,发布2.0版本升级为“AI专业创作工作室”,强化视频生成能力。融资将用于全球化布局,打造全球多模态内容生态,推动AI创意产业发展。
原文链接
2025年10月23日,LiblibAI宣布完成1.3亿美元B轮融资,由红杉中国、CMC资本及一战略投资方联合领投,老股东顺为资本、源码资本等超额增持。这是今年国内AI应用赛道最大融资,标志着资本从底层模型向应用层转移。成立于2023年底的LiblibAI,已发展为中国最大多模态模型与创作社区,覆盖图像、视频、3D等能力,孵化超2000万创作者。其“工具集成+社区生态”模式突出重围,并于近期发布2.0版本,强化视频生成与专业特效模板。融资将加速全球化布局,打造多模态内容生态,推动AI创意产业发展。
原文链接
10月19日,奇瑞墨甲机器人全球发布会宣布其进入行业L3能力等级,具备多模态感知、自主任务执行等核心能力。董事长尹同跃表示,以汽车标准打造价格可承受、品质可信赖的机器人,推动其走向全球。墨甲机器人已完成从L2到L3的技术跨越,依托“智构全域”技术体系,包括高自由度灵巧手、多语种大模型和复杂环境适应能力。发布会还揭幕了“车机协同创新中心”,加速机器人与汽车融合技术标准化。墨甲发布营销场景专用视觉语言大模型MoNet,并规划到2030年实现全球机器人销量超4万台、机器狗超9万台,重点布局销售、教育等十大场景。目前,产品已落地30多个国家。
原文链接
标题:多模态大模型学会反思,上交&上海AI Lab突破复杂推理
正文:
多模态大模型虽表现惊艳,但常因缺乏“反思”能力而受困。无论是生成代码还是分析图表,它们倾向于直接给出答案,却难以在复杂问题中纠错。这种短板阻碍了AI从“知识容器”向“问题解决大师”的进化。
上海交通大学与上海人工...
原文链接
2025年10月,上海人工智能实验室联合浙江大学等机构发布首个视频到代码(video2code)评测基准IWR-Bench。该基准要求模型观看用户操作视频并生成包含完整交互逻辑的网页代码,涵盖113个真实网站任务和1001次交互动作。测试显示,即便是表现最佳的GPT-5模型,综合得分仅36.35分,功能正确性(IFS)仅为24.39%,视觉保真度(VFS)为64.25%。研究揭示当前AI在事件驱动逻辑生成上的显著短板,同时表明通用多模态模型优于专有视频理解模型。IWR-Bench为AI从静态网页生成迈向动态交互理解指明了新方向。论文及代码已开源。
原文链接
抖音&LV-NUS开源多模态新模型,小参数实现大突破
抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-...
原文链接
正文:2025年10月,港中文MMLab联合北航、上交团队发布首个结构化图像生成编辑系统,解决AI在图表、公式等结构化图像生成中的准确性问题。现有模型如FLUX.1和GPT-Image虽擅长自然图像生成,但在结构化图像上常出现逻辑混乱或数据错误等问题。研究提出“数据-模型-基准”三位一体方案:构建130万高质量代码对齐样本库、优化轻量模型融合VLM技术、设计专用评估基准StructBench与指标StructScore。实验表明,该方案显著缩小了视觉理解与生成的能力鸿沟,为教育、科研、办公等领域提供可靠工具。
原文链接
10月10日,vivo发布行业首个3B端侧多模态推理大模型“蓝心3B”,集成五大核心能力,支持128K上下文。该模型在OpenCompass多模态榜单中超越所有8B模型,SuperCLUE评测中位列10B以内总榜第一,并在中国信通院测试中获评“L3卓越级”。此外,vivo升级了蓝心图像大模型,提升图文一致性和美观度,突破长文本渲染难题,推出多项AI修图功能,进一步强化终端智能服务能力。
原文链接
用两个简单模块实现分割理解双重SOTA!华科大白翔团队推出多模态新框架
多模态大模型的能力已从文生图扩展到像素级任务(如图像分割)。然而,现有方法如OMG-LLaVA和LISA(CVPR 2024)仍存在分割不精确和理解幻觉的问题。为解决这些问题,华中科技大学与金山办公团队联合提出了多模态大模型LI...
原文链接
9月30日,全球顶尖AI科学家、IEEE Fellow许主洪转岗加入阿里通义团队,将负责多模态交互模型方向。许主洪拥有超20年AI学术与产业经验,曾发表300多篇顶级论文,被引用超5万次,并获斯坦福全球顶尖1%科学家称号。他曾任Salesforce副总裁,创立多模态AI公司HyperAGI,是业内少有的产学研多栖专家。今年年初,他已加入阿里,担任集团副总裁及智能信息事业群首席科学家,负责多模态基础模型研究。6月,他在上海世界移动通信大会上发表演讲,以夸克App的AI功能为例讲解多模态大模型应用场景。
原文链接
加载更多

暂无内容