综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
正文:
让 AI 连续生成一致的图像一直是个难题。例如,AI 画一个角色时,第一张可能很好看,但后续几张会出现明显差异;制作海报或故事分镜时,风格、身份甚至逻辑都难以统一。这种问题在 IP...
原文链接
2月14日,字节跳动发布新一代视频生成模型Seedance 2.0,获央视财经点赞,称其“改变电影制作生态,让中国AI技术惊艳世界”。该模型采用多模态音视频联合生成架构,支持文字、图片、音频、视频混合输入,内置“导演脑”,可自主设计分镜,精准还原复杂脚本,保持主体一致性。其物理动态与光影效果逼近实拍,画面可用率达业界顶尖水平,支持多种风格一键生成高清商用视频。《黑神话:悟空》制作人冯骥评价其为“当前地表最强视频生成模型”,认为将颠覆游戏CG制作流程。国外反响热烈,马斯克称“发展太快”,美国导演感叹“好莱坞要被AI颠覆”。
原文链接
2月12日,豆包视频生成模型Seedance 2.0正式上线,接入豆包App、电脑端及网页版。新模型支持原声音画同步、多镜头长叙事及多模态可控生成,用户只需输入提示词和参考图,即可生成带完整原生音轨的多镜头视频。Seedance 2.0能自动解析叙事逻辑,确保生成的镜头序列在角色、光影、风格与氛围上高度统一,为用户提供更优质的创作体验。
原文链接
《科创板日报》1月31日讯,可灵AI推出新一代视频生成模型可灵3.0系列,目前处于内测阶段。该系列包括可灵视频3.0、可灵视频3.0 Omni和可灵图片3.0,覆盖图片生成、视频生成、视频编辑及后期处理等影视制作全流程。这一更新标志着AI技术在影视领域的进一步拓展,为内容创作者提供更高效、智能的工具支持。
原文链接
12月19日,上海交通大学科研团队在新一代光计算芯片领域取得突破,首次实现支持大规模语义媒体生成模型的全光计算芯片LightGen,成果发表于《科学》杂志。该芯片利用光场传播完成计算,具备高速和并行优势,可解决传统芯片算力与能耗瓶颈问题。实验表明,即便使用性能滞后的输入设备,LightGen仍比顶尖数字芯片提升2个数量级的算力和能效。其突破了三大关键技术瓶颈:单片上百万级光学神经元集成、全光维度转换及无需真值的光学生成模型训练算法,实现高分辨率图像、3D、视频生成等复杂任务。这一研究为光计算芯片助力人工智能开辟新路径,推动更高效智能计算发展。
原文链接
12月18日,美团LongCat团队正式发布并开源虚拟人视频生成模型LongCat-Video-Avatar。该模型基于LongCat-Video基座开发,支持Audio-Text-to-Video、Audio-Text-Image-to-Video及视频续写功能,在动作拟真度、长视频稳定性与身份一致性上实现突破。其技术亮点包括同步指挥嘴型、眼神、表情和肢体动作,以及在‘静音’状态下自然表现眨眼、调整坐姿等行为,赋予虚拟人更真实的生命力。据官方介绍,这是首个同时支持文字、图片、视频三种生成模式的全能模型,并在多个权威数据集评测中达到SOTA领先水平。项目已开源,可通过GitHub、Hugging Face及官方项目页面获取。
原文链接
12月18日,微软开源全新AI工具TRELLIS.2,这是一款专为高保真图像到3D生成设计的大型模型,具备40亿参数。它基于原生3D VAE构建,可生成高达1536³ PBR纹理资产,支持16倍空间压缩,实现高效、高分辨率3D资产生成。该工具采用创新的O-Voxel稀疏体素结构,能处理复杂拓扑和锐利特征,并支持完整PBR材质建模(如颜色、粗糙度、金属度等),带来照片级真实感渲染。在英伟达H100 GPU上,生成512³分辨率模型仅需约3秒。此外,TRELLIS.2简化了数据处理流程,无需额外渲染或优化,极大提升了转换效率。项目已上线GitHub和Hugging Face,供开发者体验。
原文链接
11月26日,Black Forest Labs发布新一代图像生成模型FLUX.2,专为实际创意工作流程设计。该模型可同时参考最多10张图像,支持高精度细节和照片级真实感,文本渲染更成熟,能准确遵循用户提示,对现实世界的理解显著提升,并支持4MP图像编辑。FLUX.2系列包含多种版本,部分以开放权重形式提供,为创作者提供更多灵活性。这一发布标志着AI图像生成技术在实用性和性能上的进一步突破。
原文链接
11月21日,腾讯混元大模型团队宣布开源最新视频生成模型HunyuanVideo 1.5。该模型基于Diffusion Transformer(DiT)架构,参数量为8.3B,是一款轻量级工具,可生成5-10秒高清视频。据悉,这一模型已在“腾讯元宝”平台上线,进一步提升了视频生成的效率与质量。此次开源将为开发者和研究者提供更强大的技术支持,推动视频生成领域的发展。(记者 李佳怡)
原文链接
北京时间11月21日,谷歌发布Nano Banana Pro图像生成模型,基于Gemini 3 Pro打造。新模型在细节表现、分辨率、文本渲染及多语言支持上显著提升,并新增编辑功能与互联网搜索能力,可生成清晰文字、调整图像角度和焦点,最高支持4K分辨率。Nano Banana Pro适合制作PPT、信息图表等,最多处理14张图像或5个角色,保持一致性。该工具已在Gemini应用上线,免费用户可试用但有配额限制,订阅用户享有更高权限,未来将率先向Ultra用户开放Flow工具中的功能。
原文链接
加载更多
暂无内容