音频推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

受 DeepSeek-R1 启发，小米大模型团队登顶音频推理 MMAU 榜

3月17日，小米大模型团队宣布在音频推理领域取得重大突破，受DeepSeek-R1启发，他们将强化学习算法应用于多模态音频理解任务，仅用一周时间就以64.5%的准确率登顶国际权威MMAU音频理解评测榜首。MMAU评测集通过复杂任务评估模型的推理能力，目前该榜单第一名为商业闭源模型GPT-4o，准确率为57.3%。小米团队使用Qwen2-Audio-7B模型，结合清华大学的AVQA数据集，通过强化学习微调实现显著性能提升。实验表明，强化学习方法在小数据集上优于传统监督学习，且7B参数模型同样能展现强大推理能力。小米已开源相关代码、模型参数和技术报告，推动学术与产业交流。

原文链接