综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月3日,美团发布并开源LongCat-Flash-Omni模型,支持实时音视频交互,达到SOTA水平。该模型基于Shortcut-Connected MoE架构,参数规模达5600亿(激活参数270亿),在文本、图像、音频和视频理解等多模态任务中表现优异,首次实现全模态覆盖与大参数量高效推理。其音频能力在LibriSpeech等数据集上优于Gemini-2.5-Pro,视频理解性能比肩顶级闭源模型。此外,团队构建了一套端到端评测方案,用户评分显示其流畅度领先开源模型Qwen3-Omni。模型已在Hugging Face和GitHub同步开源。
原文链接
9月7日,华为宣布小艺智慧助手新增“小艺看世界”功能,支持拟人化实时音视频对话,已在部分机型推送11.3.7.300版本升级。适配设备包括Pura80系列、Mate 70系列、Mate X6、Mate XTs三折叠等,系统需为HarmonyOS 5.1或以上。用户可通过语音唤醒、点击图标等方式进入功能界面,摄像头对准目标后即可与小艺互动,实现实时识别与对话。该功能适用于旅游出行、日常生活场景,如动植物识别、景点介绍、穿搭建议等。华为表示更多设备支持正在陆续放开中。
原文链接
2015年,声网将WebRTC大会引入中国,举办了首届面向国内开发者、业务人员和用户的RTC(实时音视频)大会。时任声网市场VP的彭小欢因担心参会人数而失眠。十年后,RTC大会已升级为RTE(实时互联网)大会,如今已成为行业盛事,座无虚席。
本届RTE大会邀请了“大模型六虎”中的智谱、MiniMax...
原文链接
OpenAI的《Her》至今未能发布,引发了人们对其进展的关注。自从5月14日,OpenAI发布了GPT-4和端到端实时音视频对话模式以来,该技术在模拟人类对话方面展现出令人惊艳的表现,能够感知用户呼吸节奏、丰富语气实时回复,甚至具备打断功能。然而,随着期待值的升高,出现了多次延期的消息。
分析显示...
原文链接
加载更多
暂无内容