活动识别 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果新研究：AI 不听录音，凭文本描述能零样本识别洗碗等 12 种活动

11月22日，苹果公司最新研究显示，大语言模型（LLM）可通过分析音频和运动数据的文本描述，精准识别用户活动，未来或用于Apple Watch。这项“后期多模态传感器融合”技术结合LLM推理能力与传感器数据，即使信息不足也能判断活动。研究中，音频和运动模型生成描述性文本（如“水流声”），供LLM分析，避免直接处理原始录音，保护隐私。团队利用Ego4D数据集筛选12种日常活动（如洗碗、打篮球等），测试谷歌Gemini-2.5-pro和阿里Qwen-32B等模型在零样本和单样本情况下的表现，结果显示F1分数优异。该方法无需特定场景模型，节省资源，苹果已公开实验数据与代码供复现验证。

原文链接