综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月16日,阿里发布通义万相2.6系列模型,面向专业影视制作和图像创作场景全面升级。这是国内首个支持角色扮演功能的视频模型,同时具备音画同步、多镜头生成及声音驱动等能力。万相2.6已上线阿里云百炼平台及万相官网,为创作者提供更强大的工具支持。
原文链接
12月16日,阿里发布万相2.6系列模型,面向影视制作与图像创作全面升级。这是国内首个支持角色扮演功能的视频生成模型,可参考输入视频中的角色外观和音色生成单人、多人或人与物合拍视频。新增多镜头叙事、自然音画同步及音频驱动生成等功能,支持15秒长视频生成,画面与声音质感显著提升。此外,文生图能力增强,艺术风格还原度更高,细节刻画更生动,真实人像质感突出。图像生成方面,新增图文混排、多图融合、美学要素迁移等特性,适用于商用场景。万相2.6已上线阿里云百炼和官网,成为全球功能最全的视频生成模型。
原文链接
正文:近日,南洋理工大学的研究团队发布了全球首个VR端3D角色扮演AI系统SOLAMI,该系统能够识别用户肢体语言并进行沉浸式聊天。SOLAMI支持多种角色,包括蝙蝠侠、机器人等,能根据用户语音和动作生成相应的回应。它采用端到端VLA模型,结合Motion Tokenizer和Speech Tokenizer编码用户输入,通过LLM基座生成角色的语音和动作,再通过解码器驱动角色。SOLAMI的训练分为多任务预训练和指令微调两阶段,使用合成数据集提高模型性能。实验显示,SOLAMI在动作和语音质量上均优于对比方法,延迟更低。该技术为AI角色扮演提供了新方向。项目主页:
原文链接
6月20日,B站开源轻量级Index-1.9B系列模型,包括基础19亿参数的基座模型、无指令对照组、增强对话模型及支持角色扮演的定制版。该模型基于2.8T训练数据(中英文比例4:5,代码占比6%),引入互联网社区语料提升聊天趣味性,并内置角色“三三”。用户可自定义角色。模型现已在GitHub开源。
原文链接
加载更多
暂无内容