AI画家的挑战:为什么冰可乐不愿入住茶杯?
AIxiv专栏由机器之心运营,聚焦学术和技术内容,过去几年已报道了2000多篇高质量内容,促进学术交流。如果您有优秀作品,欢迎投稿至liyazhou@jiqizhixin.com或zhaoyunfeng@jiqizhixin.com。
文章作者赵峻图,上海交通大学博士研究生,专注于计算机视觉和AI生命科学应用,同时担任校田径队队长。通讯作者王德泉,上海交通大学长聘教轨助理教授及博士生导师。
设想画一幅“茶杯中的冰可乐”。面对AI画家,任务看似简单,但结果往往令人惊讶。早期尝试显示AI难以构建恰当场景,更倾向于描绘一个装满冰可乐的透明玻璃杯。即使是先进模型Dall-E 3也不例外,难以稳定实现“冰可乐入茶杯”。
这一现象归因于文生图模型的文本图像不对齐问题,特别是包含隐藏变量的不对齐问题(LC-Mis),如“茶杯中的冰可乐”中,关键变量“透明玻璃杯”并未在提示中出现,却意外出现在生成图像中。
为解决这一问题,上海交通大学团队提出Mixture of Concept Experts (MoCE)方法,通过引导模型按顺序生成图像元素,成功找回了“茶杯”,并优化了模型生成质量。
通过实验比较,MoCE方法显著降低了特定问题的生成错误率,性能甚至优于依赖大量标注数据的Dall-E 3模型。这一研究不仅揭示了AI生成图像的局限性,也为改进AI理解复杂概念提供了新思路。
未来,团队将继续探索生成式AI技术,致力于提高AI与人类需求的匹配度,推动AI在理解人类创造力方面取得更多突破。
原文链接
本文链接:https://kx.umi6.com/article/4653.html
转载请注明文章出处
相关推荐
换一换
AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?
2024-08-06 21:05:24
字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构
2026-02-24 15:50:28
机构:美国国债并非AI颠覆性风险背景下的理想选择
2026-02-24 13:48:43
港股IPO市场爆火 业内人士:港股IPO融资规模爆发式增长
2026-02-25 20:54:12
电价攀升惹民怨 特朗普要求美国科技公司承诺自掏腰包建设AI数据中心
2026-02-24 14:49:48
支付宝AI付、蚂蚁阿福APP用户数均破亿
2026-02-23 11:11:37
美国下令外交官游说反对数据监管倡议
2026-02-25 19:49:51
庄荣文学习时报头版撰文:锚定网络强国战略目标 推进“十五五”网信事业实现良好开局
2026-02-25 08:00:05
OpenAI调整“星际之门”项目策略:暂缓自建 转向与甲骨文及软银深度合作
2026-02-24 13:54:26
三星Galaxy AI再进化!自动管理信息 解放用户双手
2026-02-26 03:15:54
谷歌提出AGI新标准:回到1911年前 抢先爱因斯坦发现相对论
2026-02-24 13:46:25
中信证券:节后春季行情有望延续 涨价仍然是一季度的核心配置线索之一
2026-02-23 19:08:55
45亿红包打响AI入口大战,百度给出另一种回应
2026-02-24 13:41:49
650 文章
474829 浏览
24小时热文
更多
-
2026-02-26 04:21:05 -
2026-02-26 03:15:54 -
2026-02-26 01:06:54