1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1.5B参数撬动“吉卜力级”全能体验,国产开源多模态统一模型来了

GPT-5的造势让AI领域热度不减,但回顾上半年,GPT-4o掀起的“吉卜力风”无疑是最大亮点。它不仅引发了“万物皆可吉卜力”的创作热潮,更揭示了AIGC的新趋势:AI需要以人类认知方式融合多模态信息。昆仑万维迅速响应,开源了多模态统一模型 Skywork UniPic,用1.5B参数实现了媲美百亿参数模型的性能。

Skywork UniPic集成了图像理解、文本到图像生成和图像编辑三大核心能力。无论是生成像素风寿司场景还是将照片转换为吉卜力风格,效果都令人惊艳。相比其他大模型,UniPic主打“高性能密度”,在消费级显卡(如RTX 4090)上即可流畅运行。此外,昆仑万维还提供了完整模型权重、技术报告和代码,真正做到了全面开源。

在性能评估中,Skywork UniPic表现出色。在指令遵循、复杂生图和图像编辑等任务上,均达到行业领先水平。例如,在GenEval指令遵循测试中得分0.86,接近更大规模的BAGEL模型;在DPG-Bench生图基准中,与14B参数的BAGEL相当。

技术上,Skywork UniPic采用自回归模型架构,将图像生成深度整合到多模态框架中,避免了模块割裂的问题。通过解耦的视觉编码器设计(MAR用于生成,SigLIP2用于理解),模型实现了跨模态的统一表征学习。同时,团队构建了一套高质量数据体系,通过亿级精选语料和数百万级精调样本,显著提升了训练效率。

为确保数据质量,团队开发了专用奖励模型(Reward Model),分别针对图像生成和编辑任务进行智能评估。这些模型不仅能筛选高质量数据,还可作为强化学习的奖励信号,进一步优化生成和编辑效果。

训练策略上,Skywork UniPic采用渐进式多任务机制,先聚焦单一任务稳定收敛,再逐步引入其他任务。结合分辨率提升和分阶段参数解冻策略,模型在理解、生成和编辑任务上实现了均衡发展。

原生多模态统一模型为何重要?首先,它降低了用户门槛,让“看图+生图+改图”一体化成为可能;其次,它通过统一框架实现了“一次训练,处处生效”,为AIGC从拼规模走向拼效率指明方向。昆仑万维的开源行动,不仅推动了技术演进,也为开发者探索AI应用提供了更多可能性。

从天工AI搜索到多模态视频模型,昆仑万维始终是国内开源的重要力量。这一次,Made in China正引领全球创意工具的新风潮。

资源链接:
模型权重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:https://github.com/SkyworkAI/UniPic

原文链接
本文链接:https://kx.umi6.com/article/22689.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
安卓关了一扇门,谷歌要为自家AI「神挡杀神」?
2025-04-03 11:14:27
昆仑万维推出 Skywork-OR1 系列模型:全面开放、免费使用、完全开源
2025-04-13 22:59:42
字节跳动扣子 Coze 宣布开源:采用 Apache 2.0 许可证,支持商用
2025-07-26 15:40:54
百度文心大模型4.5系列正式开源 同步开放API服务
2025-06-30 11:47:18
开源Qwen凌晨暴击闭源Claude!刷新AI编程SOTA,支持1M上下文
2025-07-23 09:45:56
腾讯混元视频生成工具 HunyuanCustom 宣布开源,融合文本、图像、音频、视频等多模态输入生视频的能力
2025-05-09 12:47:33
小扎自曝挖人秘诀:小团队我亲自带,豪掷数百亿建GW集群,大家不图天价薪酬只为“造神”
2025-07-15 13:42:34
AI这场仗,蚂蚁决定这么打
2025-05-28 19:17:40
当FPGA遇上开源,要变天了
2025-04-27 15:25:40
一块简陋、能聊天的语音电路板 成为全网最火热的AI硬件
2025-04-11 00:18:11
DeepSeek会在全球AI竞争中沉沦吗?
2025-06-03 14:57:13
给Manus七分钟,它可以做什么
2025-05-19 22:24:28
字节Seed智能体模型UI-TARS-1.5开源
2025-04-17 19:52:37
24小时热文
更多
扫一扫体验小程序