
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月2日,IBM介绍了Granite 4.0系列模型中的最小版本——Granite 4.0 Tiny的预览版。该版本具有高计算效率和低内存需求,在FP8精度下,仅需12GB显存即可支持5个128KB上下文窗口的并发对话。其硬件需求较低,适合消费级显卡如NVIDIA GeForce RTX 3060(12GB,约2383元人民币)。Granite 4.0 Tiny计划训练Token数至少为15T,当前预览版已训练2.5T,性能接近训练Token量12T的Granite 3.3 2B Instruct,并在128KB上下文窗口16并发会话下的内存需求降低约72%。该版本总参数规模为7B,实际活动参数为1B,采用混合Mamba-2/Transformer架构。预览版已在Hugging Face上以Apache 2.0许可证发布,IBM计划今年夏天正式推出Tiny、Small和Medium版本。
原文链接
4月18日,谷歌发布Gemna 3 QAT AI模型,通过量化感知训练显著降低显存需求。此前Gemma 3 27B模型显存需求高达54GB,经int4量化后锐减至14.1GB,12B模型从24GB降至6.6GB,1B模型仅需0.5GB。这使得普通硬件如RTX 3090显卡和RTX 4060 Laptop GPU能流畅运行,甚至手机也能支持小型模型。量化过程中,谷歌采用QAT技术,在训练中模拟低精度运算,确保模型压缩后仍保持高准确性,困惑度下降了54%。目前,Ollama、LM Studio和llama.cpp等平台已集成该模型,用户可通过Hugging Face和Kaggle获取官方int4和Q4_0版本,Apple Silicon和CPU亦可运行。Gemmaverse社区提供更多量化选项,满足多样化需求。
原文链接
摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。
原文链接
2月12日,浪潮信息发布元脑R1推理服务器,可单机部署DeepSeek R1 671B模型。该模型为全参数基础大模型,具备强泛化能力和上下文理解能力。元脑R1服务器NF5688G7原生搭载FP8计算引擎,提供1128GB HBM3e显存,满足FP8精度下不低于800GB显存容量需求,显存带宽达4.8TB/s。NF5868G8则首次实现单机支持16张标准PCIe双宽卡,提供最高1536GB显存容量,支持FP16/BF16精度下单机部署DeepSeek 671B模型。
原文链接
Intel计划于2025年推出一款配备24GB显存的锐炫B580显卡,显存容量翻倍。该显卡并非针对游戏玩家设计,而是面向生产力市场,如个人开发者、小型工作室、教育科研、边缘机房及数据中心。尤其适用于AI应用,无论是推理还是应用层面。尽管锐炫B580性能略高于RTX 4060,但其高性价比使其受到青睐,起价仅为2099元。相比之下,NVIDIA在显存配置上较为保守且价格较高。
原文链接
加载更多

暂无内容