综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月23日,字节跳动Seed团队发布3D生成大模型Seed3D 1.0,可实现从单张图像到高质量仿真级3D模型的端到端生成。该模型基于Diffusion Transformer架构,用于设计3D几何生成和纹理贴图。团队计划引入多模态大语言模型(MLLM),以提升生成质量和鲁棒性,并推动其在世界模拟器中的大规模应用。这一创新标志着3D生成技术迈入新阶段,为行业带来更多可能性。
原文链接
2025年10月17日凌晨,谷歌发布视频生成模型Veo 3.1,新增叙事音频控制、首尾帧参考等功能,接入Gemini API与Vertex AI,用户可通过Flow或Gemini体验。新版本支持多人物场景生成、音画同步及最长148秒的视频片段,分辨率可达1080p/24fps。Flow平台数据显示,用户已生成超2.75亿个视频。新增功能提升了创意编辑能力,但成片质感较Veo 3进步有限,复杂场景表现仍有不足。此次更新被视为小升级,谷歌年底或将发布更大更新,可能结合Gemini 3全家桶。Sora 2或面临竞争压力。
原文链接
10月16日,谷歌发布视频生成模型Veo 3.1,新增音频支持、对象添加及移除功能。新版本在音频输出、精细化编辑和图像转视频效果方面显著提升,可生成更逼真的视频片段并精准匹配用户提示词。Veo 3.1支持向视频中自然融入新对象,同时预告未来可在Flow工具中移除现有对象。此前功能如角色塑造、首尾帧生成视频及延长时间等也全面升级,现均支持音频。该模型正逐步部署至Flow、Gemini应用、Vertex AI及Gemini API平台。自5月Flow上线以来,用户已创作超2.75亿个视频。
原文链接
10月14日,微软发布自研AI文生图模型MAI-Image-1。该模型以生成逼真的图像著称,尤其擅长闪电、风景等场景,同时具备快速处理请求的能力,较“更大、更慢的模型”更具效率。目前,MAI-Image-1已在人工智能基准网站LMArena的同类模型中位列前十,展现出卓越性能。这一发布进一步巩固了微软在AI图像生成领域的竞争力。
原文链接
清华大学生数科技:AudioLBM引领音频超分新范式
音频超分辨率(Audio Super-Resolution, Audio SR)是从低采样率音频恢复高采样率版本的技术,能够显著提升语音清晰度、音乐细节和沉浸式音频体验。然而,由于高频信息在低采样率信号中损失严重,这一任务一直是音频生成领域的核心...
原文链接
10月7日,谷歌宣布其图像生成AI模型Nano Banana(Gemini 2.5 Flash Image)正式开放商用,并新增批量处理和自定义长宽比功能。该模型自8月底预览以来已创作超50亿个作品,现可通过Gemini App、Google AI Studio等平台访问。正式版支持10种长宽比,包括电影比例、社交媒体配图等,满足多样化需求。模型适用于生产环境,受商业条款保护,收费为每百万Token 30美元,单张图片生成成本约0.039美元(约合0.28元人民币)。
原文链接
北京时间10月1日凌晨,OpenAI发布新一代视频生成模型Sora 2,新增音频生成功能,拟真效果和物理规律表现显著提升。用户可通过录制视频和语音完成身份验证,在生成内容中“客串”自己或他人。Sora 2应用已在iOS上架,采用邀请制,初期将在美国和加拿大开放,并提供宽松创作额度。OpenAI表示,未来可能推出付费生成选项以应对算力限制。为保障安全,系统会屏蔽不安全内容,所有视频均带水印与元数据标识,用户肖像仅在本人同意下使用。此外,OpenAI计划扩充人工审核团队,重点审查敏感内容。公司称,Sora 2是迈向通用世界模拟器的重要一步。
原文链接
9月26日,腾讯混元发布并开源了两款新模型——混元3D-Omni和混元3D-Part。这是腾讯在可控3D生成领域的最新突破,显著提升了AI 3D建模的实用性。此次更新加速了3D生成技术在游戏开发、3D打印及AR/VR等实际生产流程中的应用落地,进一步推动行业创新与发展。
原文链接
9月19日,通义万相正式开源全新动作生成模型Wan2.2-Animate。该模型可驱动人物、动漫形象及动物照片,广泛适用于短视频创作、舞蹈模板生成和动漫制作等领域。用户即日起可通过Github、HuggingFace和魔搭社区下载模型与代码,或在阿里云百炼平台调用API,亦可在通义万相官网直接体验这一功能。
原文链接
9月19日,阿里通义万相发布全新动作生成模型Wan2.2-Animate并开源。该模型支持驱动人物、动漫及动物照片,可应用于短视频创作、舞蹈模板生成等领域。相比前代Animate Anyone,新模型在人物一致性、生成质量等方面大幅提升,同时支持角色模仿和角色扮演两种模式。角色模仿可迁移视频中的动作和表情至图片角色,角色扮演则替换视频角色为图片角色,保留环境与动作。团队构建大规模人物视频数据集进行后训练,采用骨骼信号和隐式特征实现精准复刻,并设计光照融合LoRA优化效果。实测显示,其性能超越StableAnimator、LivePortrait等开源模型及部分闭源模型。用户可通过Github、HuggingFace、魔搭社区或阿里云百炼平台获取模型和代码。
原文链接
加载更多
暂无内容