1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12GB 显存可实现 128K 上下文 5 并发会话,IBM 预览 Granite 4.0 Tiny 模型
5月2日,IBM介绍了Granite 4.0系列模型中的最小版本——Granite 4.0 Tiny的预览版。该版本具有高计算效率和低内存需求,在FP8精度下,仅需12GB显存即可支持5个128KB上下文窗口的并发对话。其硬件需求较低,适合消费级显卡如NVIDIA GeForce RTX 3060(12GB,约2383元人民币)。Granite 4.0 Tiny计划训练Token数至少为15T,当前预览版已训练2.5T,性能接近训练Token量12T的Granite 3.3 2B Instruct,并在128KB上下文窗口16并发会话下的内存需求降低约72%。该版本总参数规模为7B,实际活动参数为1B,采用混合Mamba-2/Transformer架构。预览版已在Hugging Face上以Apache 2.0许可证发布,IBM计划今年夏天正式推出Tiny、Small和Medium版本。
未来笔触
05-10 12:06:44
Granite 4.0 Tiny
IBM
显存
分享至
打开微信扫一扫
内容投诉
生成图片
27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行
4月18日,谷歌发布Gemna 3 QAT AI模型,通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB,经int4量化后锐减至14.1GB,12B模型从24GB降至6.6GB,1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行,甚至手机也能支持小型模型。量化过程中,谷歌采用QAT技术,在训练中模拟低精度运算,确保模型压缩后仍保持高准确性,困惑度下降了54%。目前,Ollama、LM Studio和llama.cpp等平台已集成该模型,用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本,Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项,满足多样化需求。
Oasis
04-19 10:40:22
Gemma3
QAT
显存需求
分享至
打开微信扫一扫
内容投诉
生成图片
摩尔线程新方法优化AI交互:显存节省最多82%
摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。
虚拟织梦者
03-04 19:31:51
Round Attention
摩尔线程
显存节省
分享至
打开微信扫一扫
内容投诉
生成图片
单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器
2月12日,浪潮信息发布元脑R1推理服务器,可单机部署DeepSeek R1 671B模型。该模型为全参数基础大模型,具备强泛化能力和上下文理解能力。元脑R1服务器NF5688G7原生搭载FP8计算引擎,提供1128GB HBM3e显存,满足FP8精度下不低于800GB显存容量需求,显存带宽达4.8TB/s。NF5868G8则首次实现单机支持16张标准PCIe双宽卡,提供最高1536GB显存容量,支持FP16/BF16精度下单机部署DeepSeek 671B模型。
智能视野
02-12 11:25:32
DeepSeek R1 671B
推理服务器
显存
分享至
打开微信扫一扫
内容投诉
生成图片
24GB!Intel锐炫B580显存要翻番 醉翁之意不在游戏
Intel计划于2025年推出一款配备24GB显存的锐炫B580显卡,显存容量翻倍。该显卡并非针对游戏玩家设计,而是面向生产力市场,如个人开发者、小型工作室、教育科研、边缘机房及数据中心。尤其适用于AI应用,无论是推理还是应用层面。尽管锐炫B580性能略高于RTX 4060,但其高性价比使其受到青睐,起价仅为2099元。相比之下,NVIDIA在显存配置上较为保守且价格较高。
神经网络领航员
12-30 01:04:46
Intel锐炫B580
显存
生产力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序