零样本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

离开马斯克后，他把人形机器人做成了这样

标题：离开马斯克后，他把人形机器人做成了这样允中发自凹非寺量子位 | 公众号 QbitAI 如果你对人形机器人的印象还停留在“走两步就摔”“抓东西笨拙”“干活前得写脚本”，那么MATRIX-3的出现将彻底颠覆你的认知。这款主打安全、自主和可泛化的物理智能机器人，不仅敢与人类共享空间，...

原文链接

LunarCoder

01-10 16:21:09

人形机器人

矩阵超智

零样本泛化

分享至

打开微信扫一扫

内容投诉

生成图片

B站开源自研 IndexTTS-2.0：情感可控、时长可控的零样本语音合成 AI 模型

9月8日，B站宣布开源自研语音生成模型IndexTTS-2.0，这是首个支持精确时长控制的自回归零样本TTS系统。该模型可实现精准音画同步，适合视频配音等场景，并支持两种生成模式：精确时长控制和自由生成保留韵律特征。其创新点包括情感与音色解耦，用户可独立指定音色和情绪来源，同时引入GPT潜在表示和三阶段训练策略，提升高情感表达下的语音清晰度。团队还通过“软指令”机制降低使用门槛，允许自然语言描述控制情绪。实验表明，IndexTTS-2.0在词错率、音色相似度和情绪保真度上超越现有模型。代码及预训练权重已公开，助力学术研究与产业应用。

原文链接

DreamCoder

09-09 16:18:36

IndexTTS-2.0

情感与时长控制

零样本语音合成

分享至

打开微信扫一扫

内容投诉

生成图片

苹果AI团队发布新模型Depth Pro，能快速从2D图像推理生成3D深度图像

苹果公司人工智能研究团队近期发布了一款名为Depth Pro的全新模型，这款模型能在短时间内从单张2D图像中生成详细的3D深度图像，标志着单目深度估计领域的一大进步。Depth Pro不仅速度快至0.3秒，且准确性高，优于当前同类系统，尤其在捕捉细微细节如皮毛和鸟笼线条方面表现出色。这项突破性技术绕...

原文链接

镜像现实MirageX

10-10 11:33:00

Depth Pro

单目深度估计

零样本学习

分享至

打开微信扫一扫

内容投诉

生成图片

OpenCity大模型预测交通路况，零样本下表现出色，来自港大百度

OpenCity大模型在预测交通路况方面表现出色，特别是零样本情况下。香港大学与华南理工大学、百度合作推出OpenCity，针对传统模型在泛化性与长期预测能力上的不足。OpenCity结合了Transformer架构和图神经网络，预训练于大规模、异质性交通数据集，以学习丰富的、具有泛化性的表征。相...

原文链接

智能维度跳跃

08-31 12:50:24

OpenCity

交通预测

零样本预测

分享至

打开微信扫一扫

内容投诉

生成图片

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

北京大学王选计算机技术研究所发布了一项创新成果，针对多模态大模型在理解人类行为方面的局限性，提出了一种名为多模态提示学习（CMMP）的方法。该方法利用提示词工程技术教会多模态大模型理解区域级的人物交互关系，尤其擅长处理未见过的人物交互类型。当前，多数研究聚焦于封闭环境下的多模态模型，而在开放环境中...

原文链接

幻彩逻辑RainbowLogic

08-14 10:50:04

CMMP方法

多模态提示学习

零样本人物交互检测

分享至

打开微信扫一扫

内容投诉

生成图片

小冰数字员工升级：上线“零样本”技术，全新透影音画传输系统质量达运营商级别

今日，小冰公司发布全新"零样本"数字人技术，将其数字员工产品升级，达到运营商级音画传输质量。基于Z-XNR和超千亿大模型，小冰实现秒级数据生成与定制，且数字人能实现实时交互。技术革新还包括超高清视频推送、数字大脑平台强化和透明通道数据支持。小冰AI产品线日趋完善，覆盖企业不同阶段与场景，已服务招商局、红杉中国等头部企业，并面向小微企业提供便捷低成本的数字化转型路径。用户可通过小冰数字员工APP体验自动化定制。小冰团队以技术创新引领行业发展，多项技术获国家网信办备案认可。

原文链接

数据炼金师

07-18 14:24:13

小冰

数字员工

零样本

分享至

打开微信扫一扫

内容投诉

生成图片

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术，能够直接分割多种概念，如电影角色、地标和品牌，即使面对开放词汇。它利用循环神经网络结构，通过CLIP模型的循环调用来生成和筛选掩码，逐步提高分割精度。关键优势包括： 1. 不依赖额外训练数据，无需掩码注解或大量图像-文本数据。 2. 保持开放词汇能力，不受限于预训练VLM的微调。 3. 能处理文本查询中图像内不存在的概念，通过迭代优化提升分割质量。 CaR的设计灵感来源于RNN的隐状态，通过掩码提议生成器和分类器，反复评估和筛选，实现高质量的分割。研究显示，即使在零样本条件下，CaR在多项指标上也优于传统微调方法。项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力，为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。

原文链接