格灵深瞳作为中国领先的AI视觉企业,不仅在多模态大模型技术上超越了OpenAI,更在实际应用中展现出多模态大模型在产业界的巨大潜力。其在银行安防、城市管理、商业零售和体育教育领域的落地案例,证明了多模态大模型并非仅限于语言模型,而是拥有广泛的应用前景。
格灵深瞳的自研视觉大模型Unicom v2在多个业务数据集上显著超越了OpenAI的CLIP、Meta的DINOv2和苹果的DFN。基于Unicom打造的深瞳灵感-7B多模态大模型,在同类规模的视觉语言模型中领先于业界普遍使用的OpenAI CLIP和谷歌SigLIP,同时相关论文入选AI顶级会议ECCV 2024。
尽管当前“大模型”通常指代大型语言模型,但格灵深瞳的成功证明了视觉大模型和多模态大模型在传统视觉AI领域仍有广阔的发展空间。ChatGPT的普及加速了市场对大模型价值的认识,使得视觉AI从单一任务的“模块化”转变为综合能力更强的“一体化”。
在视觉AI发展的初期,缺乏对大模型的共识,这限制了其在实际应用中的推广。然而,随着ChatGPT的兴起,大模型的价值得到了广泛认可,视觉AI开始经历类似语言模型的范式转变,即从“模块化”到“一体化”。格灵深瞳的Unicom系列视觉大模型通过大规模数据和计算能力的提升,实现了对世界的统一理解和泛化能力。
以银行安防为例,传统的AI系统需要复杂的设计来识别打架行为,而引入语言模型后,AI能够通过连续输入视频帧并描述场景,从语义层面判断是否属于打斗行为。在工业质检领域,通用视觉大模型能够实现少样本学习和跨场景泛化,结合语言模型生成的文字描述,为现场工作人员提供了有效的参考。
格灵深瞳的总-分-支三层架构,通过大模型在边缘端、分行和总行之间的高效协同,实现了对零散多模态数据的增量学习和动态更新,形成了一个不断进化的AI平台。这种架构不仅提高了数据和算力的利用效率,还增强了系统对各类监控数据的整合能力。
格灵深瞳在弱监督学习方面的创新,通过多标签聚类辨别(MLCD)方法,有效利用无标注图像数据,为模型训练注入了丰富的语义信息。这种方法通过选择多个最近聚类中心作为辅助类标签,降低了决策边界的歧义,并在大规模模型和数据集上验证了其有效性。
格灵深瞳还尝试使用基于RNN的序列建模方法RWKV替代主流的ViT架构,推出了视觉语言模型RWKV-CLIP,旨在降低推理计算复杂度,使多模态AI能力在更多边缘和终端设备上得到应用。这一创新不仅提升了模型性能,还促进了社区的合作与进步。
综上所述,格灵深瞳作为视觉AI领域的领军企业,不仅在技术上不断创新,更重要的是深入理解行业需求,将多模态大模型应用于实际场景中,推动了AI技术在各个行业的深度发展。格灵深瞳的成功案例表明,将技术创新与行业洞察相结合,是实现多模态大模型广泛应用的关键。
.png)

-
2025-07-21 13:17:34
-
2025-07-21 12:18:20
-
2025-07-21 12:17:10