
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12日,《科创板日报》报道,阿里通义实验室近日开源了全模态模型R1-Omni。该模型是业内首个采用具有可验证奖励的强化学习(RLVR)技术优化的全能多模态大语言模型。研究团队通过RLVR方法对开源模型HumanOmni-0.5B进行了改进,在推理能力、情感识别准确性及泛化能力上均得到大幅提升。R1-Omni不仅增强了对视觉与听觉信息的理解,还能够清晰揭示不同模态数据在情绪判断中的具体影响。这一成果标志着多模态AI技术迈出了重要一步。
原文链接
阿里开源R1-Omni,结合DeepSeek同款RLVR和全模态情感识别,网友认为这代表了可解释性与多模态学习的未来方向。
阿里通义实验室薄列峰团队开发的R1-Omni,首次将RLVR应用于全模态LLM,包括视频内容。RLVR是一种新训练范式,通过验证函数直接评估输出,无需依赖奖励模型。
薄列峰团队将RLVR与全模态LLM结合,专注于情感识别任务,涵盖视觉和音频模态。实验显示,R1-Omni在分布内和分布外数据集上均有显著提升,特别是在推理能力和鲁棒性方面。
R1-Omni在X上引发关注,有人认为其在市场营销和广告领域的潜力巨大。团队还展示了模型在推理过程中的连贯性和准确性,特别是在处理未见过的数据时表现突出。
R1-Omni模型通过冷启动策略和RLVR训练优化,确保输出符合特定格式。实验评估表明,R1-Omni在多个指标上优于其他基线模型,并在开放词汇情感测试中表现出色。
原文链接
谷歌于12月8日发布其最新AI模型PaliGemma 2,该模型具备图像分析能力,能生成图片描述并回答关于照片中人物的问题。除了识别物体外,PaliGemma 2还能识别和描述情感。不过,这一功能引发了专家的担忧。情感识别技术基于心理学家Paul Ekman的六种基本情绪理论,但研究表明,不同文化背景下的人在表达情感时存在显著差异,这使情感识别的普遍性受到质疑。专家指出,情感识别技术存在可靠性和偏见问题,比如某些模型可能对特定表情产生偏好或对某些种族的负面情绪判断更多。谷歌表示,在广泛测试后,PaliGemma 2在减少毒性内容方面优于行业基准,但未公开具体测试细节。欧盟《人工智能法案》禁止在学校和雇主处使用情感识别系统,但在执法领域允许使用。
原文链接
加载更多

暂无内容