正文:2025年10月,港中文MMLab联合北航、上交团队发布首个结构化图像生成编辑系统,解决AI在图表、公式等结构化图像生成中的准确性问题。现有模型如FLUX.1和GPT-Image虽擅长自然图像生成,但在结构化图像上常出现逻辑混乱或数据错误等问题。研究提出“数据-模型-基准”三位一体方案:构建130万高质量代码对齐样本库、优化轻量模型融合VLM技术、设计专用评估基准StructBench与指标StructScore。实验表明,该方案显著缩小了视觉理解与生成的能力鸿沟,为教育、科研、办公等领域提供可靠工具。
原文链接
本文链接:https://kx.umi6.com/article/26485.html
转载请注明文章出处
相关推荐
.png)
换一换
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
独家丨前阿里通义视觉负责人薄列峰,已加入腾讯混元团队
2025-07-27 19:02:28
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025-09-24 14:42:04
DeepSeek的Janus-Pro表现如何?
2025-01-28 15:49:21
独家|华为昇腾适配阶跃星辰多模态开源模型
2025-03-10 14:41:01
智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等
2024-12-09 22:35:42
512 文章
238605 浏览
24小时热文
更多

-
2025-10-11 21:33:05
-
2025-10-11 20:32:50
-
2025-10-11 19:32:28