综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
《科创板日报》18日消息,小米大模型团队近日推出一种创新的图像生成方法——对角蛇形自回归图像生成方式(DAR)。该方法突破传统逐行生成模式,通过沿图像对角线方向,以灵活的‘蛇形’路径生成像素,提升生成效率与效果。目前,相关论文、训练代码及模型权重已公开发布。这一新技术展现出在图像生成领域的潜力,值得关注。
原文链接
3月17日,小米大模型团队宣布在音频推理领域取得重大突破,受DeepSeek-R1启发,他们将强化学习算法应用于多模态音频理解任务,仅用一周时间就以64.5%的准确率登顶国际权威MMAU音频理解评测榜首。MMAU评测集通过复杂任务评估模型的推理能力,目前该榜单第一名为商业闭源模型GPT-4o,准确率为57.3%。小米团队使用Qwen2-Audio-7B模型,结合清华大学的AVQA数据集,通过强化学习微调实现显著性能提升。实验表明,强化学习方法在小数据集上优于传统监督学习,且7B参数模型同样能展现强大推理能力。小米已开源相关代码、模型参数和技术报告,推动学术与产业交流。
原文链接
加载更多
暂无内容