
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月,上海人工智能实验室联合浙江大学等机构发布首个视频到代码(video2code)评测基准IWR-Bench。该基准要求模型观看用户操作视频并生成包含完整交互逻辑的网页代码,涵盖113个真实网站任务和1001次交互动作。测试显示,即便是表现最佳的GPT-5模型,综合得分仅36.35分,功能正确性(IFS)仅为24.39%,视觉保真度(VFS)为64.25%。研究揭示当前AI在事件驱动逻辑生成上的显著短板,同时表明通用多模态模型优于专有视频理解模型。IWR-Bench为AI从静态网页生成迈向动态交互理解指明了新方向。论文及代码已开源。
原文链接
抖音&LV-NUS开源多模态新模型,小参数实现大突破
抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-...
原文链接
正文:2025年10月,港中文MMLab联合北航、上交团队发布首个结构化图像生成编辑系统,解决AI在图表、公式等结构化图像生成中的准确性问题。现有模型如FLUX.1和GPT-Image虽擅长自然图像生成,但在结构化图像上常出现逻辑混乱或数据错误等问题。研究提出“数据-模型-基准”三位一体方案:构建130万高质量代码对齐样本库、优化轻量模型融合VLM技术、设计专用评估基准StructBench与指标StructScore。实验表明,该方案显著缩小了视觉理解与生成的能力鸿沟,为教育、科研、办公等领域提供可靠工具。
原文链接
2025云栖大会上,阿里集团发布六大AI模型及全新品牌“通义百聆”。新模型包括Qwen3-VL(视觉理解)、Wan2.5-Preview(音画同步视频生成)等,覆盖文本、视觉、语音、代码等全场景应用。其中,Qwen-MAX在国际榜单登顶,Qwen3-Coder优化项目级代码修复能力,通义百聆攻克企业语音模型落地难题。此外,模型强化多语言OCR、超长上下文支持、音画同步生成等能力,提升工业级编辑与跨行业适配表现。阿里CEO吴泳铭表示将加大AI基础设施投入,推进3800亿投资计划。
原文链接
标题:快手开源多模态推理模型Keye-VL 1.5:视频理解新标杆
快手开源了新一代多模态推理模型Keye-VL 1.5,具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本,新模型在时序定位和跨模态推理上显著提升,并创新性提出Slow-Fast双路编码机制,在性能与...
原文链接
2025年9月1日,朋友圈和社交平台被大量“3D打印手办”图片刷屏,这些图片实际由谷歌推出的AI模型Nano-banana生成。该模型自8月26日上线后,凭借图像生成与编辑能力迅速出圈,在海外AI排行平台LMArena中以1362分位列第一。Nano-banana可将人物或动物图片转化为“手办”样式,并支持多图融合、风格迁移等功能,展现跨图一致性与常识推理能力。目前,Adobe等多家海外平台已集成该模型,华福证券认为其代表多模态模型的重大突破。同日,A股3D打印概念股震荡拉升,海正生材等多股涨停。机构指出,多模态模型商业化潜力巨大,算力与应用领域将迎来投资机遇。
原文链接
8月26日,面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型,称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越,尤其具备行业首个高刷视频理解能力,支持每秒处理更多帧数,大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率,显著提升动态画面理解精度。此外,其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平,并兼顾性能与响应速度,提供常规模式和深度思考模式。模型已开源,可通过Github、Hugging Face及ModelScope获取。
原文链接
2025年8月27日,面壁智能正式开源8B参数的MiniCPM-V 4.5多模态旗舰模型。该模型是行业首个具备“高刷”视频理解能力的多模态模型,在性能与效率上实现越级领先,超越Qwen2.5-VL 72B模型。MiniCPM-V 4.5最大支持6倍视频帧数量输入,达到96倍视觉压缩率,显著提升动态画面理解精度。在图片、长视频、OCR及文档解析等任务中均达SOTA水平,并支持短思考与长思考混合推理模式,适用于端侧设备。模型已开源,可通过GitHub、Hugging Face和ModelScope获取。
原文链接
2025年8月,阿里巴巴启动智能信息事业群大规模AI人才招聘计划,社招与校招总规模近千人,聚焦大语言模型、多模态技术及AI硬件等前沿领域。工作地点覆盖北京、上海、杭州、广州等城市。此次招聘反映阿里加速布局AI TO C应用的决心,重点优化AI搜索、健康、创作等场景化落地。夸克AI眼镜亮相世界人工智能大会,并新增相关硬件研发岗位。阿里巴巴2026届校招将发出7000多个Offer,AI相关岗位占比超六成,涵盖算法融合、医疗AI等项目,吸引年轻高端人才参与前沿技术研发。
原文链接
2025年8月12日,智谱开源发布了GLM-4.5V多模态视觉推理模型,参数规模达100B,在42项基准测试中拿下41个SOTA,登顶多模态榜单。该模型具备看图猜地址、视频转代码、复杂图表推理等强大功能,例如在GeoGuessr游戏中全球排名66,能精准识别《清明上河图》中的细节,并将视频一键还原为网站代码。API价格低至2元/百万token,官方赠送2000万免费额度。GLM-4.5V基于GLM-4.5基座,采用三阶段训练策略,支持图像、视频、文档理解等多场景应用,展现了强大的泛化与推理能力,成为AI多模态领域的新标杆。
原文链接
加载更多

暂无内容