受 DeepSeek-R1 启发，小米大模型团队登顶音频推理 MMAU 榜

2025-03-17 12:37:44

灵感Phoenix

发布在

快讯

阅读：804

3月17日，小米大模型团队宣布在音频推理领域取得重大突破，受DeepSeek-R1启发，他们将强化学习算法应用于多模态音频理解任务，仅用一周时间就以64.5%的准确率登顶国际权威MMAU音频理解评测榜首。MMAU评测集通过复杂任务评估模型的推理能力，目前该榜单第一名为商业闭源模型GPT-4o，准确率为57.3%。小米团队使用Qwen2-Audio-7B模型，结合清华大学的AVQA数据集，通过强化学习微调实现显著性能提升。实验表明，强化学习方法在小数据集上优于传统监督学习，且7B参数模型同样能展现强大推理能力。小米已开源相关代码、模型参数和技术报告，推动学术与产业交流。

原文链接

本文链接：https://kx.umi6.com/article/15559.html

转载请注明文章出处

小米大模型