综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:上海AI Lab胡侠:KV Cache压缩技术让2万美金GPU媲美20万美金性能
正文:
当前,大语言模型在处理超长上下文方面取得显著突破,部分模型如MiniMax-M1、Qwen2.5-1M已支持百万Token级别的输入。然而,提升上下文长度的竞赛仍在继续,因其在金融、法律、医疗等领域的...
原文链接
标题:榨干GPU性能,中兴Mariana突破显存壁垒
正文:
大语言模型(LLM)在各行业的应用日益广泛,但推理效率与显存成本之间的矛盾愈发突出。KV Cache作为提升生成速度的核心技术,却因显存占用过高成为制约模型扩展和并发能力的瓶颈。如何高效扩展KV Cache存储空间,已成为AI领域的关...
原文链接
加载更多
暂无内容