1.5B参数撬动“吉卜力级”全能体验,国产开源多模态统一模型来了
GPT-5的造势让AI领域热度不减,但回顾上半年,GPT-4o掀起的“吉卜力风”无疑是最大亮点。它不仅引发了“万物皆可吉卜力”的创作热潮,更揭示了AIGC的新趋势:AI需要以人类认知方式融合多模态信息。昆仑万维迅速响应,开源了多模态统一模型 Skywork UniPic,用1.5B参数实现了媲美百亿参数模型的性能。
Skywork UniPic集成了图像理解、文本到图像生成和图像编辑三大核心能力。无论是生成像素风寿司场景还是将照片转换为吉卜力风格,效果都令人惊艳。相比其他大模型,UniPic主打“高性能密度”,在消费级显卡(如RTX 4090)上即可流畅运行。此外,昆仑万维还提供了完整模型权重、技术报告和代码,真正做到了全面开源。
在性能评估中,Skywork UniPic表现出色。在指令遵循、复杂生图和图像编辑等任务上,均达到行业领先水平。例如,在GenEval指令遵循测试中得分0.86,接近更大规模的BAGEL模型;在DPG-Bench生图基准中,与14B参数的BAGEL相当。
技术上,Skywork UniPic采用自回归模型架构,将图像生成深度整合到多模态框架中,避免了模块割裂的问题。通过解耦的视觉编码器设计(MAR用于生成,SigLIP2用于理解),模型实现了跨模态的统一表征学习。同时,团队构建了一套高质量数据体系,通过亿级精选语料和数百万级精调样本,显著提升了训练效率。
为确保数据质量,团队开发了专用奖励模型(Reward Model),分别针对图像生成和编辑任务进行智能评估。这些模型不仅能筛选高质量数据,还可作为强化学习的奖励信号,进一步优化生成和编辑效果。
训练策略上,Skywork UniPic采用渐进式多任务机制,先聚焦单一任务稳定收敛,再逐步引入其他任务。结合分辨率提升和分阶段参数解冻策略,模型在理解、生成和编辑任务上实现了均衡发展。
原生多模态统一模型为何重要?首先,它降低了用户门槛,让“看图+生图+改图”一体化成为可能;其次,它通过统一框架实现了“一次训练,处处生效”,为AIGC从拼规模走向拼效率指明方向。昆仑万维的开源行动,不仅推动了技术演进,也为开发者探索AI应用提供了更多可能性。
从天工AI搜索到多模态视频模型,昆仑万维始终是国内开源的重要力量。这一次,Made in China正引领全球创意工具的新风潮。
资源链接:
模型权重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:https://github.com/SkyworkAI/UniPic
.png)

-
2025-08-02 19:22:48
-
2025-08-02 18:23:34
-
2025-08-02 18:22:54