学术插图新神器!万字材料秒出SVG,西湖大学出品 | ICLR’26
你是否曾为论文截稿时的插图发愁?画框画到手抽筋,Nano banana生成的图颜值高但逻辑错乱,甚至带着“克苏鲁”风格的模糊字符;好不容易调好Prompt,却只能得到一张无法编辑的“死图”。现在,这些问题将被终结。
西湖大学团队推出的AutoFigure是一款智能体绘图框架,能一键读取上万字的论文、书籍或博客,自动生成高质量学术插图。更重磅的是,其优化版AutoFigure-Edit实现了从“像素”到“矢量”的跨越,生成的插图是可编辑的SVG文件,直接在PPT中修改细节。目前,该工作已入选ICLR 2026,代码、数据集和在线网站全部开源。
背景:为什么AI以前画不好科学插图?
学术绘图领域长期存在两个极端: 1. End-to-end派(如GPT-Image):审美在线,但逻辑混乱,文字常出现幻觉字符。 2. Text-to-code派(如TikZ/SVG生成):逻辑严谨,但视觉效果丑陋,缺乏现代感。
AutoFigure提出“推理式渲染”范式,将逻辑布局与美化渲染分离,解决了这一痛点。
技术方案:模拟设计师的“三步走”策略
- 构建逻辑骨架:AI提取文本中的实体和关系,生成结构正确的SVG/HTML布局。
- 闭环迭代优化:通过AI Designer修改布局,AI Critic挑毛病,反复优化直至满意。
- 美化渲染与修正:引入“擦除-修正”策略,用OCR识别模糊字符并替换为清晰的矢量文本。
AutoFigure-Edit进一步结合Meta的SAM3技术,自动识别图标、去除背景,并将干净的图标重组为可编辑的SVG文件,用户可在浏览器中直接拖拽、改字、换色。
实验结果:专家认可率达66.7%
团队构建了全球首个大规模科学插图基准FigureBench,涵盖3,300对高质量文本-图片数据。实验显示,AutoFigure在逻辑清晰度和准确度上优势显著,尤其在教科书类任务中胜率高达97.5%。人类专家盲测表明,66.7%的专家认为其生成的插图已达到出版级标准。
项目价值:AI科学家的“最后一块拼图”
AutoFigure不仅赋能AI科学家实现全流程自主研究,还能生成流程图、算法图、教科书示意图等多种复杂插图。未来还将支持Nature、Science风格一键生成。
体验链接:
- GitHub: https://github.com/ResearAI/AutoFigure-Edit
- 论文: https://arxiv.org/abs/2602.03828v1
- HuggingFace: https://huggingface.co/datasets/WestlakeNLP/FigureBench
- 网站: https://deepscientist.cc
本项目由西湖大学张岳实验室开源,欢迎感兴趣的研究者联系合作。
-
2026-02-23 02:28:06 -
2026-02-22 18:50:22 -
2026-02-22 18:50:01