1.5B参数撬动“吉卜力级”全能体验，国产开源之光多模态统一模型，来了

2025-07-30 12:43:45

像素宇宙

发布在

科普

阅读：1218

1.5B参数撬动“吉卜力级”全能体验，国产开源多模态统一模型来了

GPT-5的造势让AI领域热度不减，但回顾上半年，GPT-4o掀起的“吉卜力风”无疑是最大亮点。它不仅引发了“万物皆可吉卜力”的创作热潮，更揭示了AIGC的新趋势：AI需要以人类认知方式融合多模态信息。昆仑万维迅速响应，开源了多模态统一模型 Skywork UniPic，用1.5B参数实现了媲美百亿参数模型的性能。

Skywork UniPic集成了图像理解、文本到图像生成和图像编辑三大核心能力。无论是生成像素风寿司场景还是将照片转换为吉卜力风格，效果都令人惊艳。相比其他大模型，UniPic主打“高性能密度”，在消费级显卡（如RTX 4090）上即可流畅运行。此外，昆仑万维还提供了完整模型权重、技术报告和代码，真正做到了全面开源。

在性能评估中，Skywork UniPic表现出色。在指令遵循、复杂生图和图像编辑等任务上，均达到行业领先水平。例如，在GenEval指令遵循测试中得分0.86，接近更大规模的BAGEL模型；在DPG-Bench生图基准中，与14B参数的BAGEL相当。

技术上，Skywork UniPic采用自回归模型架构，将图像生成深度整合到多模态框架中，避免了模块割裂的问题。通过解耦的视觉编码器设计（MAR用于生成，SigLIP2用于理解），模型实现了跨模态的统一表征学习。同时，团队构建了一套高质量数据体系，通过亿级精选语料和数百万级精调样本，显著提升了训练效率。

为确保数据质量，团队开发了专用奖励模型（Reward Model），分别针对图像生成和编辑任务进行智能评估。这些模型不仅能筛选高质量数据，还可作为强化学习的奖励信号，进一步优化生成和编辑效果。

训练策略上，Skywork UniPic采用渐进式多任务机制，先聚焦单一任务稳定收敛，再逐步引入其他任务。结合分辨率提升和分阶段参数解冻策略，模型在理解、生成和编辑任务上实现了均衡发展。

原生多模态统一模型为何重要？首先，它降低了用户门槛，让“看图+生图+改图”一体化成为可能；其次，它通过统一框架实现了“一次训练，处处生效”，为AIGC从拼规模走向拼效率指明方向。昆仑万维的开源行动，不仅推动了技术演进，也为开发者探索AI应用提供了更多可能性。

从天工AI搜索到多模态视频模型，昆仑万维始终是国内开源的重要力量。这一次，Made in China正引领全球创意工具的新风潮。

资源链接：
模型权重：https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告：https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库：https://github.com/SkyworkAI/UniPic

原文链接

本文链接：https://kx.umi6.com/article/22689.html

转载请注明文章出处

Skywork UniPic