显存 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

12GB 显存可实现 128K 上下文 5 并发会话，IBM 预览 Granite 4.0 Tiny 模型

5月2日，IBM介绍了Granite 4.0系列模型中的最小版本——Granite 4.0 Tiny的预览版。该版本具有高计算效率和低内存需求，在FP8精度下，仅需12GB显存即可支持5个128KB上下文窗口的并发对话。其硬件需求较低，适合消费级显卡如NVIDIA GeForce RTX 3060（12GB，约2383元人民币）。Granite 4.0 Tiny计划训练Token数至少为15T，当前预览版已训练2.5T，性能接近训练Token量12T的Granite 3.3 2B Instruct，并在128KB上下文窗口16并发会话下的内存需求降低约72%。该版本总参数规模为7B，实际活动参数为1B，采用混合Mamba-2/Transformer架构。预览版已在Hugging Face上以Apache 2.0许可证发布，IBM计划今年夏天正式推出Tiny、Small和Medium版本。

原文链接

未来笔触

05-10 12:06:44

Granite 4.0 Tiny

IBM

显存

分享至

打开微信扫一扫

内容投诉

生成图片

27B 显存需求 54 → 14.1GB：谷歌发布 Gemma 3 QAT AI 模型，RTX 3090 显卡可运行

4月18日，谷歌发布Gemna 3 QAT AI模型，通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB，经int4量化后锐减至14.1GB，12B模型从24GB降至6.6GB，1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行，甚至手机也能支持小型模型。量化过程中，谷歌采用QAT技术，在训练中模拟低精度运算，确保模型压缩后仍保持高准确性，困惑度下降了54%。目前，Ollama、LM Studio和llama.cpp等平台已集成该模型，用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本，Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项，满足多样化需求。

原文链接

Oasis

04-19 10:40:22

Gemma3

QAT

显存需求

分享至

打开微信扫一扫

内容投诉

生成图片

摩尔线程新方法优化AI交互：显存节省最多82％

摩尔线程科研团队近日发布《Round Attention：以轮次块稀疏性开辟多轮对话优化新范式》成果，使端到端延迟低于主流Flash Attention推理引擎，kv-cache显存占用节省55%-82%。该方法针对多轮对话场景，通过轮次为单元分析Attention规律，提升了计算效率并节省显存。测试显示，模型推理准确率未受影响。此成果有望显著提高AI交互性能。

原文链接

虚拟织梦者

03-04 19:31:51

Round Attention

摩尔线程

显存节省

分享至

打开微信扫一扫

内容投诉

生成图片

单机即可部署运行 DeepSeek R1 671B 模型，浪潮信息推出元脑 R1 推理服务器

2月12日，浪潮信息发布元脑R1推理服务器，可单机部署DeepSeek R1 671B模型。该模型为全参数基础大模型，具备强泛化能力和上下文理解能力。元脑R1服务器NF5688G7原生搭载FP8计算引擎，提供1128GB HBM3e显存，满足FP8精度下不低于800GB显存容量需求，显存带宽达4.8TB/s。NF5868G8则首次实现单机支持16张标准PCIe双宽卡，提供最高1536GB显存容量，支持FP16/BF16精度下单机部署DeepSeek 671B模型。

原文链接

智能视野

02-12 11:25:32

DeepSeek R1 671B

推理服务器

显存

分享至

打开微信扫一扫

内容投诉

生成图片

24GB！Intel锐炫B580显存要翻番醉翁之意不在游戏

Intel计划于2025年推出一款配备24GB显存的锐炫B580显卡，显存容量翻倍。该显卡并非针对游戏玩家设计，而是面向生产力市场，如个人开发者、小型工作室、教育科研、边缘机房及数据中心。尤其适用于AI应用，无论是推理还是应用层面。尽管锐炫B580性能略高于RTX 4060，但其高性价比使其受到青睐，起价仅为2099元。相比之下，NVIDIA在显存配置上较为保守且价格较高。

原文链接