巧妙！一个传统技术让国产视觉基础模型直接上大分

2025-05-23 14:50:35

未来笔触

发布在

科普

阅读：1068

标题：一个传统技术助力国产视觉基础模型脱颖而出

国产AI在视觉基础模型领域取得重要进展，格灵深瞳推出的Glint-MVT成为亮点。这项技术通过引入间隔Softmax损失函数，显著提升了模型的泛化能力和抗噪性能。测试显示，Glint-MVT在线性探测中的平均准确率高于OpenCLIP 2.3%，优于CLIP 1.1%。

Glint-MVT的核心是Margin-based pretrained Vision Transformer（MVT），它不仅在图像分割任务中表现出色，还能精准识别复杂场景下的细节。例如，在处理遮挡严重的人物图像时，AI能够精确分割出目标人物。在视频分割任务中，无论是动态变化还是静态场景，Glint-MVT均能稳定输出高质量结果。

此外，团队还开发了基于Glint-MVT的多模态模型，包括Glint-RefSeg和MVT-VLM。前者可实现无需额外训练即可分割多种物体，后者则能在图像理解任务中识别复杂信息，如运动员性别、服装颜色及号码等。

技术突破的背后，是格灵深瞳对传统方法的创新应用和对数据处理方式的优化。团队通过虚拟类别构造和噪声抑制策略，大幅提升了模型效率与准确性。这种务实的研发逻辑使Glint-MVT不仅在学术指标上领先，更在实际应用场景中展现出强大潜力。

格灵深瞳的成功离不开其专注业务需求、坚持开源共享的企业文化。从早期安防领域的探索，到如今聚焦视觉大模型，该公司始终致力于解决产业痛点。未来，格灵深瞳将继续推进多模态大模型和视频理解技术的研究，为AI落地提供更多可能。

原文链接

本文链接：https://kx.umi6.com/article/19132.html

转载请注明文章出处

国产AI