实时音视频 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

美团发布并开源 LongCat-Flash-Omni 模型：支持实时音视频交互，达到 SOTA 水平

11月3日，美团发布并开源LongCat-Flash-Omni模型，支持实时音视频交互，达到SOTA水平。该模型基于Shortcut-Connected MoE架构，参数规模达5600亿（激活参数270亿），在文本、图像、音频和视频理解等多模态任务中表现优异，首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro，视频理解性能比肩顶级闭源模型。此外，团队构建了一套端到端评测方案，用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。

原文链接

像素宇宙

11-03 11:17:00

LongCat-Flash-Omni

多模态

实时音视频交互

分享至

打开微信扫一扫

内容投诉

生成图片

华为全新小艺拟人化实时音视频对话功能适配机型公布，含 Mate XTs 三折叠等

9月7日，华为宣布小艺智慧助手新增“小艺看世界”功能，支持拟人化实时音视频对话，已在部分机型推送11.3.7.300版本升级。适配设备包括Pura80系列、Mate 70系列、Mate X6、Mate XTs三折叠等，系统需为HarmonyOS 5.1或以上。用户可通过语音唤醒、点击图标等方式进入功能界面，摄像头对准目标后即可与小艺互动，实现实时识别与对话。该功能适用于旅游出行、日常生活场景，如动植物识别、景点介绍、穿搭建议等。华为表示更多设备支持正在陆续放开中。

原文链接

智能视野

09-07 14:45:54

华为小艺

实时音视频对话

适配机型

分享至

打开微信扫一扫

内容投诉

生成图片

实时音视频领域拓荒者的十年

2015年，声网将WebRTC大会引入中国，举办了首届面向国内开发者、业务人员和用户的RTC（实时音视频）大会。时任声网市场VP的彭小欢因担心参会人数而失眠。十年后，RTC大会已升级为RTE（实时互联网）大会，如今已成为行业盛事，座无虚席。本届RTE大会邀请了“大模型六虎”中的智谱、MiniMax...

原文链接

量子黑客

10-31 10:45:35

RTE大会

实时音视频

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI的《Her》难产，是被什么困住了手脚？

OpenAI的《Her》至今未能发布，引发了人们对其进展的关注。自从5月14日，OpenAI发布了GPT-4和端到端实时音视频对话模式以来，该技术在模拟人类对话方面展现出令人惊艳的表现，能够感知用户呼吸节奏、丰富语气实时回复，甚至具备打断功能。然而，随着期待值的升高，出现了多次延期的消息。分析显示...

原文链接