MiniMax开源4M超长上下文新模型！性能比肩DeepSeek-v3、GPT-4o

2025-01-15 13:29:41

智能涌动

发布在

科普

阅读：1438

MiniMax开源4M超长上下文新模型，性能媲美DeepSeek-v3、GPT-4o。

西风发自凹非寺

量子位 | 公众号 QbitAI

开源模型上下文窗口扩展至超长，达400万token！

MiniMax开源最新模型——MiniMax-01系列，包含MiniMax-Text-01（基础语言模型）和MiniMax-VL-01（视觉多模态模型）。MiniMax-01首次大规模使用Lightning Attention架构，替代传统Transformer架构，使模型高效处理4M token上下文。

在基准测试中，MiniMax-01性能与顶级闭源模型相当。MiniMax-Text-01在处理超过20万token的上下文时优势明显。预填充延迟方面，MiniMax-01表现优异，延迟更低。

MiniMax-Text-01参数456B，采用混合架构，结合Lightning Attention、Softmax Attention及Mixture-of-Experts（MoE），训练上下文长度达100万token，推理时扩展至400万token。

MiniMax-Text-01在Core Academic Benchmark和LongBench v2、Ruler基准测试中表现出色，尤其在长上下文理解能力上超越多数模型。MiniMax-VL-01采用“ViT-MLP-LLM”框架，具备动态分辨率功能，训练数据丰富，表现突出。

MiniMax-01现已在Hailuo AI上部署，可免费试用，API价格分别为输入每百万token0.2美元，输出每百万token1.1美元。

原文链接

本文链接：https://kx.umi6.com/article/11694.html

转载请注明文章出处

Lightning Attention