昨晚,DeepSeek创始人梁文峰回到广州过年,但在除夕夜前夕,他们发布了新模型Janus-Pro。这使DeepSeek再次成为焦点。Janus-Pro是一款多模态理解和生成模型,升级自Janus模型,能同时处理文本和图像。它被称为雅努斯,源于罗马神话中双面守护神的形象,象征开始和结束。
Janus-Pro为何推出?尽管现有模型已强大,但仍存在处理复杂任务时的不足。Janus-Pro采用解耦视觉编码的设计,分为理解图像和生成图像两部分。理解图像时,使用SigLIP编码器提取特征;生成图像时,则通过VQ tokenizer生成代码,再由适配器转换为机器语言。
训练Janus-Pro分三阶段:基础训练、增强训练、最终微调。训练过程中,加入大量图像字幕数据、表格图表及合成美学数据,提升模型的多模态理解和生成能力。模型规模也从1.5B扩展至7B,参数优化显著提升了性能。
Janus-Pro的实际表现优异,在多模态理解和视觉生成任务上均超过其他知名模型。如在MMBench基准测试中得分79.2,高于TokenFlow-XL和MetaMorph。在GenEval测试中得分0.80,超越DALL-E 3和Stable Diffusion 3 Medium。
原文链接
本文链接:https://kx.umi6.com/article/12302.html
转载请注明文章出处
相关推荐
换一换
别太相信DeepSeek
2025-08-14 18:02:41
上科大何旭明团队新作:克服简单样本偏置,让多模态模型学会「难题优先」
2026-01-16 15:56:29
DeepSeek线上模型版本升级至V3.1
2025-08-19 20:04:27
DeepSeek又更新了,期待梁文锋“炸场”
2025-08-21 09:28:01
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
DeepSeek刷屏论文背后:除了梁文锋,还有一个18岁中国高中生,曾写出神级提示词
2025-09-19 11:14:40
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
DeepSeek新模型上线
2025-09-30 11:25:43
六大AI大模型展开美股投资竞赛:重仓英伟达的Deepseek再次领跑
2025-10-28 18:00:23
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
DeepSeek催化下,芯片带领沪指突破3800点
2025-08-22 20:52:41
DeepSeek 开源新模型 V3.1:约 685B 参数,上下文长度拓展至 128K
2025-08-20 10:11:16
762 文章
523000 浏览
24小时热文
更多
-
2026-03-10 10:03:26 -
2026-03-10 10:02:35 -
2026-03-10 09:02:22