综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
9月8日,B站宣布开源自研语音生成模型IndexTTS-2.0,这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步,适合视频配音等场景,并支持两种生成模式:精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦,用户可独立指定音色和情绪来源,同时引入GPT潜在表示和三阶段训练策略,提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛,允许自然语言描述控制情绪。实验表明,IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开,助力学术研究与产业应用。
原文链接
苹果公司人工智能研究团队近期发布了一款名为Depth Pro的全新模型,这款模型能在短时间内从单张2D图像中生成详细的3D深度图像,标志着单目深度估计领域的一大进步。Depth Pro不仅速度快至0.3秒,且准确性高,优于当前同类系统,尤其在捕捉细微细节如皮毛和鸟笼线条方面表现出色。这项突破性技术绕...
原文链接
OpenCity大模型在预测交通路况方面表现出色,特别是零样本情况下。香港大学与华南理工大学、百度合作推出OpenCity,针对传统模型在泛化性与长期预测能力上的不足。OpenCity结合了Transformer架构和图神经网络,预训练于大规模、异质性交通数据集,以学习丰富的、具有泛化性的表征。
相...
原文链接
北京大学王选计算机技术研究所发布了一项创新成果,针对多模态大模型在理解人类行为方面的局限性,提出了一种名为多模态提示学习(CMMP)的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系,尤其擅长处理未见过的人物交互类型。
当前,多数研究聚焦于封闭环境下的多模态模型,而在开放环境中...
原文链接
今日,小冰公司发布全新"零样本"数字人技术,将其数字员工产品升级,达到运营商级音画传输质量。基于Z-XNR和超千亿大模型,小冰实现秒级数据生成与定制,且数字人能实现实时交互。技术革新还包括超高清视频推送、数字大脑平台强化和透明通道数据支持。小冰AI产品线日趋完善,覆盖企业不同阶段与场景,已服务招商局、红杉中国等头部企业,并面向小微企业提供便捷低成本的数字化转型路径。用户可通过小冰数字员工APP体验自动化定制。小冰团队以技术创新引领行业发展,多项技术获国家网信办备案认可。
原文链接
牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术,能够直接分割多种概念,如电影角色、地标和品牌,即使面对开放词汇。它利用循环神经网络结构,通过CLIP模型的循环调用来生成和筛选掩码,逐步提高分割精度。
关键优势包括:
1. 不依赖额外训练数据,无需掩码注解或大量图像-文本数据。
2. 保持开放词汇能力,不受限于预训练VLM的微调。
3. 能处理文本查询中图像内不存在的概念,通过迭代优化提升分割质量。
CaR的设计灵感来源于RNN的隐状态,通过掩码提议生成器和分类器,反复评估和筛选,实现高质量的分割。研究显示,即使在零样本条件下,CaR在多项指标上也优于传统微调方法。
项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力,为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。
原文链接
加载更多
暂无内容