综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
IBM于10月2日推出Granite 4.0系列企业级LLM模型,采用Mamba-Transformer混合架构,显著降低内存需求与推理部署成本。首发型号包括Small、Tiny、Micro等规格,未来更多版本预计在2025年底发布。该系列最小模型Granite-4.0-H-Micro参数仅3B,而Granite-4.0-H-Small以32B总参数实现开源模型一流性能。混合架构在长输入和多并发场景下减少70%内存需求,且性能优于上一代Granite 3.3 8B。IBM以Apache 2.0许可开源该系列模型,并提供ISO 42001认证及加密签名支持。
原文链接
5月2日,IBM介绍了Granite 4.0系列模型中的最小版本——Granite 4.0 Tiny的预览版。该版本具有高计算效率和低内存需求,在FP8精度下,仅需12GB显存即可支持5个128KB上下文窗口的并发对话。其硬件需求较低,适合消费级显卡如NVIDIA GeForce RTX 3060(12GB,约2383元人民币)。Granite 4.0 Tiny计划训练Token数至少为15T,当前预览版已训练2.5T,性能接近训练Token量12T的Granite 3.3 2B Instruct,并在128KB上下文窗口16并发会话下的内存需求降低约72%。该版本总参数规模为7B,实际活动参数为1B,采用混合Mamba-2/Transformer架构。预览版已在Hugging Face上以Apache 2.0许可证发布,IBM计划今年夏天正式推出Tiny、Small和Medium版本。
原文链接
加载更多
暂无内容