全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

2024-12-16 13:35:14

量子思考者

发布在

科普

阅读：900

全球首个端侧全模态理解开源模型来了！这个模型名为Megrez-3B-Omni，具有多项优势。它能轻松处理图片、音频、文本三种模态数据，且体积轻巧，速度飞快。

在图像理解方面，Megrez-3B-Omni作为3B模型，其综合性能表现超过34B的大模型。它在多个主流测试集上精度最高，能够准确理解和分析图像内容，包括复杂的文字识别。

在文本理解方面，Megrez-3B-Omni将上一代14B模型的能力压缩到3B规模，显著降低了计算成本，提升了计算效率。在多个权威测试集上，它取得了端上模型最优精度，为端侧设备的智能化提供了新的可能。

在语音理解方面，Megrez-3B-Omni支持中文和英文的语音输入，处理复杂的多轮对话场景。用户可以通过语音指令与模型互动，实现语音与文本输入的自由切换。

此外，Megrez-3B-Omni在推理速度上也表现出色，最大推理速度比同精度模型快300%。它还提供WebSearch功能，智能判断何时调用外部工具进行搜索，以提高回答的准确性。

无问芯穹技术团队来自清华大学，他们在模型压缩、推理加速及硬件能耗优化等方面拥有深厚经验。Megrez-3B-Omni是他们推出的一个能力预览，未来将继续迭代Megrez系列，提升自动化水平，使端设备的操作更加简便。

该模型已在GitHub和HuggingFace上开源，欢迎访问体验。

Github: https://github.com/infinigence/Infini-Megrez
HuggingFace: https://huggingface.co/Infinigence/Megrez-3B-Omni
体验纯语言版本Megrez-3B-Instruct: https://cloud.infini-ai.com/genstudio/model/mo-c73owqiotql7lozr

原文链接

本文链接：https://kx.umi6.com/article/10258.html

转载请注明文章出处

全模态理解

开源模型

端侧设备

分享至

打开微信扫一扫

内容投诉

生成图片

量子思考者

726 文章

668533 浏览

24小时热文

苹果抨击“为AI而AI”：真正有用的AI需以用户为中心

2026-06-09 07:06:40
AI狂欢要散场了吗

2026-06-09 00:54:40
库克亲自掌舵！一场会议改写苹果AI发展走向

2026-06-09 00:53:08