综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月2日,商汤科技联合南洋理工大学S-Lab发布并开源全新多模态模型架构NEO,称其为“行业首个实现深层次融合的原生多模态架构”。NEO通过注意力机制、位置编码和语义映射三大创新,打破传统模块化设计局限,统一处理视觉与语言能力。相比主流模型,NEO仅需1/10数据量(3.9亿图像文本示例),即可在视觉理解任务中追平顶级模型,并在多项公开评测中表现优异。此外,NEO支持边缘部署,在0.6B-8B参数区间性价比突出。商汤已开源2B与9B两种规格模型,供开发者使用。
原文链接
2025年11月18日,Google正式发布Gemini 3 Pro,这款备受期待的大模型在多个领域展现惊人实力。在主流竞技场排行榜中几乎全面领先,尤其在Humanity’s Last Exam、MathArena Apex等复杂评测中表现突出,超越GPT-5.1和Claude Sonnet 4.5。其前端代码能力尤为出色,能快速生成高质量的网页项目,如体素艺术场景、网页音乐播放器及类似Windows操作系统的Web OS。Gemini 3 Pro还具备强大的多模态处理能力,在高分辨率界面定位任务中达到72.7%的准确率。目前,用户可通过AI Studio或Google Gemini网页版体验该模型。此次发布标志着AI技术迈入新阶段,未来已悄然到来。
原文链接
全新创作平台SkyReels来了!一张画布+对话框搞定AI视频创作
梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
最近,一只神态抽象的企鹅在网上爆火。网友们纷纷用它整活儿,我也忍不住用AI将它“魔改”成了一位Rapper:小墨镜一戴,大金链子一挂,配上热曲,这只鹅仿佛能直接登上《中国有嘻...
原文链接
2025年10月,上海人工智能实验室联合浙江大学等机构发布首个视频到代码(video2code)评测基准IWR-Bench。该基准要求模型观看用户操作视频并生成包含完整交互逻辑的网页代码,涵盖113个真实网站任务和1001次交互动作。测试显示,即便是表现最佳的GPT-5模型,综合得分仅36.35分,功能正确性(IFS)仅为24.39%,视觉保真度(VFS)为64.25%。研究揭示当前AI在事件驱动逻辑生成上的显著短板,同时表明通用多模态模型优于专有视频理解模型。IWR-Bench为AI从静态网页生成迈向动态交互理解指明了新方向。论文及代码已开源。
原文链接
抖音&LV-NUS开源多模态新模型,小参数实现大突破
抖音SAIL团队与LV-NUS Lab联合推出多模态大模型 SAIL-VL2,以2B、8B中小参数规模,在106个数据集上实现性能突破,尤其在复杂推理任务中表现优异,甚至比肩更大参数的闭源模型。通过数据、训练和架构三大维度创新,SAIL-...
原文链接
正文:2025年10月,港中文MMLab联合北航、上交团队发布首个结构化图像生成编辑系统,解决AI在图表、公式等结构化图像生成中的准确性问题。现有模型如FLUX.1和GPT-Image虽擅长自然图像生成,但在结构化图像上常出现逻辑混乱或数据错误等问题。研究提出“数据-模型-基准”三位一体方案:构建130万高质量代码对齐样本库、优化轻量模型融合VLM技术、设计专用评估基准StructBench与指标StructScore。实验表明,该方案显著缩小了视觉理解与生成的能力鸿沟,为教育、科研、办公等领域提供可靠工具。
原文链接
2025云栖大会上,阿里集团发布六大AI模型及全新品牌“通义百聆”。新模型包括Qwen3-VL(视觉理解)、Wan2.5-Preview(音画同步视频生成)等,覆盖文本、视觉、语音、代码等全场景应用。其中,Qwen-MAX在国际榜单登顶,Qwen3-Coder优化项目级代码修复能力,通义百聆攻克企业语音模型落地难题。此外,模型强化多语言OCR、超长上下文支持、音画同步生成等能力,提升工业级编辑与跨行业适配表现。阿里CEO吴泳铭表示将加大AI基础设施投入,推进3800亿投资计划。
原文链接
标题:快手开源多模态推理模型Keye-VL 1.5:视频理解新标杆
快手开源了新一代多模态推理模型Keye-VL 1.5,具备128k超长上下文窗口、0.1秒级视频定位能力及跨模态推理功能。相比此前版本,新模型在时序定位和跨模态推理上显著提升,并创新性提出Slow-Fast双路编码机制,在性能与...
原文链接
2025年9月1日,朋友圈和社交平台被大量“3D打印手办”图片刷屏,这些图片实际由谷歌推出的AI模型Nano-banana生成。该模型自8月26日上线后,凭借图像生成与编辑能力迅速出圈,在海外AI排行平台LMArena中以1362分位列第一。Nano-banana可将人物或动物图片转化为“手办”样式,并支持多图融合、风格迁移等功能,展现跨图一致性与常识推理能力。目前,Adobe等多家海外平台已集成该模型,华福证券认为其代表多模态模型的重大突破。同日,A股3D打印概念股震荡拉升,海正生材等多股涨停。机构指出,多模态模型商业化潜力巨大,算力与应用领域将迎来投资机遇。
原文链接
8月26日,面壁智能宣布开源8B参数的MiniCPM-V 4.5多模态模型,称其为“最强端侧多模态模型”。该模型在视频理解、图片识别、复杂文档解析等任务中表现卓越,尤其具备行业首个高刷视频理解能力,支持每秒处理更多帧数,大幅超越Qwen2.5-VL 72B等模型。MiniCPM-V 4.5通过3D-Resampler技术实现96倍视觉压缩率,显著提升动态画面理解精度。此外,其在MotionBench、OpenCompass等多项榜单中达到同级SOTA水平,并兼顾性能与响应速度,提供常规模式和深度思考模式。模型已开源,可通过Github、Hugging Face及ModelScope获取。
原文链接
加载更多
暂无内容