1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
字节Seed团队推出3D生成大模型Seed3D 1.0
10月23日,字节跳动Seed团队发布3D生成大模型Seed3D 1.0,可实现从单张图像到高质量仿真级3D模型的端到端生成。该模型基于Diffusion Transformer架构,用于设计3D几何生成和纹理贴图。团队计划引入多模态大语言模型(MLLM),以提升生成质量和鲁棒性,并推动其在世界模拟器中的大规模应用。这一创新标志着3D生成技术迈入新阶段,为行业带来更多可能性。
蝶舞CyberSwirl
10-23 16:12:12
3D生成模型
Seed3D
字节跳动
分享至
打开微信扫一扫
内容投诉
生成图片
刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
2025年10月17日凌晨,谷歌发布视频生成模型Veo 3.1,新增叙事音频控制、首尾帧参考等功能,接入Gemini API与Vertex AI,用户可通过Flow或Gemini体验。新版本支持多人物场景生成、音画同步及最长148秒的视频片段,分辨率可达1080p/24fps。Flow平台数据显示,用户已生成超2.75亿个视频。新增功能提升了创意编辑能力,但成片质感较Veo 3进步有限,复杂场景表现仍有不足。此次更新被视为小升级,谷歌年底或将发布更大更新,可能结合Gemini 3全家桶。Sora 2或面临竞争压力。
幻彩逻辑RainbowLogic
10-17 22:25:46
Veo 3.1
视频生成模型
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 Veo 3.1 视频生成模型发布:新增音频支持、对象添加等功能
10月16日,谷歌发布视频生成模型Veo 3.1,新增音频支持、对象添加及移除功能。新版本在音频输出、精细化编辑和图像转视频效果方面显著提升,可生成更逼真的视频片段并精准匹配用户提示词。Veo 3.1支持向视频中自然融入新对象,同时预告未来可在Flow工具中移除现有对象。此前功能如角色塑造、首尾帧生成视频及延长时间等也全面升级,现均支持音频。该模型正逐步部署至Flow、Gemini应用、Vertex AI及Gemini API平台。自5月Flow上线以来,用户已创作超2.75亿个视频。
神经网络领航员
10-16 07:47:17
视频生成模型
谷歌Veo 3.1
音频支持
分享至
打开微信扫一扫
内容投诉
生成图片
微软发布图像生成模型MAI-Image-1
10月14日,微软发布自研AI文生图模型MAI-Image-1。该模型以生成逼真的图像著称,尤其擅长闪电、风景等场景,同时具备快速处理请求的能力,较“更大、更慢的模型”更具效率。目前,MAI-Image-1已在人工智能基准网站LMArena的同类模型中位列前十,展现出卓越性能。这一发布进一步巩固了微软在AI图像生成领域的竞争力。
量子黑客
10-14 16:20:54
MAI-Image-1
图像生成模型
微软
分享至
打开微信扫一扫
内容投诉
生成图片
清华大学生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
清华大学生数科技:AudioLBM引领音频超分新范式 音频超分辨率(Audio Super-Resolution, Audio SR)是从低采样率音频恢复高采样率版本的技术,能够显著提升语音清晰度、音乐细节和沉浸式音频体验。然而,由于高频信息在低采样率信号中损失严重,这一任务一直是音频生成领域的核心...
Journeyman
10-12 12:44:22
桥类生成模型
隐空间建模
音频超分
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌“Nano Banana”图像 AI 模型正式开放商用:同步新增批量处理、自定义长宽比功能
10月7日,谷歌宣布其图像生成AI模型Nano Banana(Gemini 2.5 Flash Image)正式开放商用,并新增批量处理和自定义长宽比功能。该模型自8月底预览以来已创作超50亿个作品,现可通过Gemini App、Google AI Studio等平台访问。正式版支持10种长宽比,包括电影比例、社交媒体配图等,满足多样化需求。模型适用于生产环境,受商业条款保护,收费为每百万Token 30美元,单张图片生成成本约0.039美元(约合0.28元人民币)。
智慧轨迹
10-07 11:49:23
Nano Banana
商业授权
图像生成模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI 深夜炸场:家族最强视频生成模型 Sora 2 发布,还能同步生成音频
北京时间10月1日凌晨,OpenAI发布新一代视频生成模型Sora 2,新增音频生成功能,拟真效果和物理规律表现显著提升。用户可通过录制视频和语音完成身份验证,在生成内容中“客串”自己或他人。Sora 2应用已在iOS上架,采用邀请制,初期将在美国和加拿大开放,并提供宽松创作额度。OpenAI表示,未来可能推出付费生成选项以应对算力限制。为保障安全,系统会屏蔽不安全内容,所有视频均带水印与元数据标识,用户肖像仅在本人同意下使用。此外,OpenAI计划扩充人工审核团队,重点审查敏感内容。公司称,Sora 2是迈向通用世界模拟器的重要一步。
QuantumHacker
10-01 08:39:42
Sora 2
视频生成模型
音频生成
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯混元3D-Omni、混元3D-Part发布并开源
9月26日,腾讯混元发布并开源了两款新模型——混元3D-Omni和混元3D-Part。这是腾讯在可控3D生成领域的最新突破,显著提升了AI 3D建模的实用性。此次更新加速了3D生成技术在游戏开发、3D打印及AR/VR等实际生产流程中的应用落地,进一步推动行业创新与发展。
幻彩逻辑RainbowLogic
09-26 18:33:53
3D生成模型
开源
腾讯混元
分享至
打开微信扫一扫
内容投诉
生成图片
通义万相全新动作生成模型开源
9月19日,通义万相正式开源全新动作生成模型Wan2.2-Animate。该模型可驱动人物、动漫形象及动物照片,广泛适用于短视频创作、舞蹈模板生成和动漫制作等领域。用户即日起可通过Github、HuggingFace和魔搭社区下载模型与代码,或在阿里云百炼平台调用API,亦可在通义万相官网直接体验这一功能。
虚拟微光
09-19 15:17:03
动作生成模型
开源
通义万相
分享至
打开微信扫一扫
内容投诉
生成图片
上传一张图、主演任何视频,“性能最强动作生成模型”阿里通义万相 Wan2.2-Animate 开源
9月19日,阿里通义万相发布全新动作生成模型Wan2.2-Animate并开源。该模型支持驱动人物、动漫及动物照片,可应用于短视频创作、舞蹈模板生成等领域。相比前代Animate Anyone,新模型在人物一致性、生成质量等方面大幅提升,同时支持角色模仿和角色扮演两种模式。角色模仿可迁移视频中的动作和表情至图片角色,角色扮演则替换视频角色为图片角色,保留环境与动作。团队构建大规模人物视频数据集进行后训练,采用骨骼信号和隐式特征实现精准复刻,并设计光照融合LoRA优化效果。实测显示,其性能超越StableAnimator、LivePortrait等开源模型及部分闭源模型。用户可通过Github、HuggingFace、魔搭社区或阿里云百炼平台获取模型和代码。
AI奇点纪元
09-19 15:14:57
动作生成模型
开源
通义万相
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序