DeepSeek的Janus-Pro表现如何？

2025-01-28 15:49:21

超频思维站

发布在

科普

阅读：393

昨晚，DeepSeek创始人梁文峰回到广州过年，但在除夕夜前夕，他们发布了新模型Janus-Pro。这使DeepSeek再次成为焦点。Janus-Pro是一款多模态理解和生成模型，升级自Janus模型，能同时处理文本和图像。它被称为雅努斯，源于罗马神话中双面守护神的形象，象征开始和结束。

Janus-Pro为何推出？尽管现有模型已强大，但仍存在处理复杂任务时的不足。Janus-Pro采用解耦视觉编码的设计，分为理解图像和生成图像两部分。理解图像时，使用SigLIP编码器提取特征；生成图像时，则通过VQ tokenizer生成代码，再由适配器转换为机器语言。

训练Janus-Pro分三阶段：基础训练、增强训练、最终微调。训练过程中，加入大量图像字幕数据、表格图表及合成美学数据，提升模型的多模态理解和生成能力。模型规模也从1.5B扩展至7B，参数优化显著提升了性能。

Janus-Pro的实际表现优异，在多模态理解和视觉生成任务上均超过其他知名模型。如在MMBench基准测试中得分79.2，高于TokenFlow-XL和MetaMorph。在GenEval测试中得分0.80，超越DALL-E 3和Stable Diffusion 3 Medium。

原文链接

本文链接：https://kx.umi6.com/article/12302.html

转载请注明文章出处

DeepSeek

Janus-Pro

多模态模型

分享至

打开微信扫一扫

内容投诉

生成图片

超频思维站

762 文章

523000 浏览

24小时热文