多模态交互 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里云发布 AI 硬件多模态交互开发套件：集成通义大模型，适配 30 多款终端芯片

1月8日，阿里云在通义智能硬件展上发布多模态交互开发套件，集成千问、万相、百聆三大通义基础大模型，并预置十余款Agent和MCP工具，适用于AI眼镜、学习机、陪伴玩具等设备。该套件适配30多款主流终端芯片，支持ARM、RISC-V和MIPS架构，未来还将与玄铁RISC-V实现软硬协同优化。其专有模型针对多模态交互场景优化，语音交互时延低至1秒，视频交互时延1.5秒。此外，套件接入百炼平台生态，支持开发者扩展应用能力边界。阿里云还展示了面向智能穿戴设备、陪伴机器人等领域的解决方案，如AI眼镜的同声传译功能及家庭陪伴机器人的实时监测与对话交互能力。

原文链接

心智奇点

01-08 13:12:06

多模态交互

通义大模型

阿里云

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云发布多模态交互开发套件可应用于AI眼镜、机器人等

1月8日，在阿里云通义智能硬件展上，阿里云发布多模态交互开发套件。该套件集成千问、万相、百聆三款通义基础大模型，并预置十多款生活休闲和工作效率领域的Agent及MCP工具。这一技术可广泛应用于AI眼镜、学习机、陪伴玩具、智能机器人等硬件设备，为用户提供更智能化的交互体验。（记者黄心怡）

原文链接

梦境编程师

01-08 12:17:50

AI眼镜

多模态交互开发套件

阿里云

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI ChatGPT 优化多模态交互，AI 聊天合并支持语音与文本

11月25日，OpenAI宣布ChatGPT正式将“语音模式”整合至主聊天界面，支持多模态交互。用户可在语音对话中实时查看地图、图片等视觉信息及文字转录，无需切换模式，体验更无缝。新版亮点在于语音回答时同步呈现相关视觉内容，并生成对话的文字记录，方便回顾。为满足不同需求，设置中新增开关，可切换回旧版独立语音模式。此次更新体现了OpenAI拓展AI应用边界的持续努力，此前已推出多项新功能，如AI购物助手、群聊功能和GPT-5.1模型等。

原文链接

蝶舞CyberSwirl

11-26 08:30:01

ChatGPT

多模态交互

语音模式

分享至

打开微信扫一扫

内容投诉

生成图片

从“给答案”到“教动脑”：这届小学生被AI教会主动思考

标题：AI如何教会小学生主动思考正文： “妈，这题怎么做？”——这个熟悉的声音正在被AI重新定义。如今，AI+教育的浪潮席卷而来，ChatGPT推出学习模式，谷歌发布教育工具，美国一些学校甚至要求学生每天与AI助手学习两小时。然而，大多数AI教育产品仍停留在“授人以鱼”的层面，追求快速给出答案...

原文链接

星际Code流浪者

11-11 13:06:17

AI教育

多模态交互

学而思学习机

分享至

打开微信扫一扫

内容投诉

生成图片

千里科技联手阶跃星辰、吉利发布下一代智能座舱Agent OS

2025年7月26日，千里科技联合阶跃星辰与吉利汽车集团在世界人工智能大会（WAIC 2025）上发布下一代智能座舱Agent OS（预览版）。该系统基于多模态大模型和端到端语音技术，具备超自然交互、端云一体记忆、全融合地图人机共驾及第三生活空间等核心能力，为用户提供拟人化、情感化的交互体验。其创新功能包括毫秒级语音对话、情感表达、场景感知以及沉浸式驾驶体验，并通过自我学习优化个性化服务。此外，Agent OS还重构了车内影音娱乐与应用逻辑，将座舱打造成多元化生活空间。该成果荣获WAIC“镇馆之宝”应用实践大奖，成为人工智能领域的标杆之作。

原文链接

AGI探路者

07-26 22:46:46

Agent OS

多模态交互

智能座舱

分享至

打开微信扫一扫

内容投诉

生成图片

中国AI最高奖项的唯一特等奖：被京东拿下了

3月19日，京东科技人工智能团队凭借“多模态交互式数字人关键技术及产业应用”项目，荣获中国智能科学技术最高奖——吴文俊人工智能科学技术奖的唯一特等奖。该项目在人体建模、多模态语义对齐及行为生成等方面实现技术突破。京东已将该技术商业化，服务9000+商家，带来超140亿销售额。此外，京东言犀数字人技术升级，通过LiveTTS和LiveHuman模型，可快速生成高质量数字人。这是京东继2021年和2022年后再次获此殊荣。

原文链接

梦境编程师

03-19 19:48:28

京东

吴文俊人工智能科学技术奖

多模态交互式数字人

分享至

打开微信扫一扫

内容投诉

生成图片

安卓版 Perplexity Assistant 登场：AI 多模态交互，“看”懂你的世界

1月24日，Perplexity AI公司推出安卓版Perplexity Assistant，提供多模态交互体验及跨应用任务执行能力。该AI助手能回答问题、写邮件、设提醒、预订晚餐等，支持基于屏幕内容提问及摄像头互动。实际应用案例包括：语音叫车、播放指定播客、识别实物及协助发送短信。目前支持Spotify、YouTube、Uber等应用。

原文链接

阿达旻

01-24 11:40:29

AI助手

Perplexity Assistant

多模态交互

分享至

打开微信扫一扫

内容投诉

生成图片

豆包重磅更新！语音对话“更像人” AI应用端或迎来变革

1月20日，豆包实时语音大模型正式发布，旨在实现端到端语音对话，主要面向中文语境。该模型具备接近真人的语音表达水准，低时延且支持打断对话。在与OpenAI的GPT-4o对比中，豆包模型在语音语气自然度和情绪饱满度方面表现更优，整体满意度评分4.36（满分5分）。豆包模型团队采用端到端框架，融合语音与文本模态，通过预训练和后训练阶段优化，提升了模型的对话能力和安全性。实时语音AI的价值在于提供更真实的交互体验和情感价值，有望推动AI端侧硬件的发展。

原文链接

LunarCoder

01-20 17:22:57

AI情感陪伴

多模态交互

豆包实时语音大模型

分享至

打开微信扫一扫

内容投诉

生成图片

讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用

11月14日，“讯飞开放平台”宣布讯飞星火多模态交互大模型正式上线。该模型实现了从单一语音交互向音视频流实时多模交互的拓展，新增了“多模态、超拟人和个性化”功能，集成了语音、视觉、数字人交互于一体，支持一键调用。该模型首次应用超拟人数字人技术，数字人的动作、表情能精准匹配语音内容，实现跨模态语义一致性，使情感表达更连贯。同时，该模型支持超拟人极速交互，采用统一神经网络实现语音到语音的端到端建模，能敏锐感知情绪变化并自由调整声音节奏、大小及人设。此外，它还能实现多模态视觉交互，能够理解具体背景场景，通过语音、手势、行为、情绪等综合判断作出回复。用户可通过数字人进行自然语音对话，数字人能识别摄像头中的内容，如物品品牌、品类等。

原文链接

电子诗篇

11-14 19:24:41

多模态交互

数字人

讯飞星火

分享至

打开微信扫一扫

内容投诉

生成图片

年轻人的好友列表 AI越来越多

上周，在GITEX GLOBAL展会上，社交应用Soul展示了其最新的AIGC+社交融合成果，用户可通过AI创建3D数字人并进行实时互动。Soul CTO陶明表示，其语音对话延迟已降至不到200毫秒，得益于端到端大模型能力的应用，提升了用户体验。ChatGPT的出现激发了互联网公司纷纷投身AI领域，Soul也积极加入这股浪潮，通过持续迭代产品和探索新业务，意图构建AI与人类共存的社区。 Soul认为，AI不仅要具备认知能力，还需具备感知能力，例如通过感知用户的咳嗽声来判断健康状况。目前，Soul正逐步将AI融入产品中，提升用户与AI的互动体验。Soul产品负责人指出，赛博社交因其强调个性化和无压力交流，更受00后欢迎。随着AI技术的发展，未来年轻人的好友列表或将包含越来越多的AI虚拟角色，形成新的社交模式。

原文链接