
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
摩尔线程科研团队近日发布《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》成果,使端到端延迟低于主流Flash Attention推理引擎,kv-cache显存占用节省55%-82%。该方法针对多轮对话场景,通过轮次为单元分析Attention规律,提升了计算效率并节省显存。测试显示,模型推理准确率未受影响。此成果有望显著提高AI交互性能。
原文链接
MiniMax开源4M超长上下文新模型,性能媲美DeepSeek-v3、GPT-4o。
西风 发自 凹非寺
量子位 | 公众号 QbitAI
开源模型上下文窗口扩展至超长,达400万token!
MiniMax开源最新模型——MiniMax-01系列,包含MiniMax-Text-01(基础语言模型...
原文链接
正文:英伟达近日提出全新Star Attention机制,显著提升大语言模型的推理效率,最高可加速10倍。该技术于11月26日发布,适用于处理长序列的Transformer模型,尤其在边缘计算设备如手机和AIPC中表现突出。Star Attention通过分块处理上下文和查询,有效降低了计算成本,同时保持较高精度。在RULER基准测试中,即使上下文长度达到1048K,Star Attention仍能保持90%的准确率,加速比达10.8×~16.9×。该技术可无缝集成至大多数基于Transformer的大规模语言模型中,无需额外微调,有望推动本地设备处理更长序列的应用发展。对于云端服务提供商,Star Attention同样有助于“降本增效”,减少能源消耗。论文地址:[]。
原文链接
阿里巴巴团队最新发布了一款名为mPLUG-Owl3的通用多模态大模型,该模型能在短短4秒内解析长达2小时的电影内容。mPLUG-Owl3通过优化First Token Latency和增加单张A100建模的图像数目至400张,实现了显著的效率提升,同时保持了模型的准确性。在多种多模态任务中,如单图、多图、视频理解等,mPLUG-Owl3均展现出卓越的表现,达到当前最佳水平(SOTA)。其核心创新在于引入轻量化Hyper Attention模块,该模块能高效融合视觉与文本信息,无需将视觉序列拼接到语言模型文本序列中,从而有效降低计算开销。此外,团队还提出了一种长视觉序列测评方法,用于评估模型在处理包含大量无关信息的长序列时的抗干扰能力,结果显示mPLUG-Owl3在长序列测试中表现出色,显示出强大的多模态处理能力。这一突破性的技术发布,标志着多模态大模型领域的重要进展。
原文链接
英伟达携手Meta、谷歌等推出FlashAttention三代,专为H100优化,训练速度提升1.5-2倍,FP16计算吞吐量达740TFLOPs/s,利用率提升至75%,比标准Attention快16倍。新一代利用Hopper架构特点,实现IO感知优化和分块处理,有效解决了内存访问和计算复杂度问题。通过异步编程模型、warp专门化和乒乓调度,大幅提升了GPU利用效率。FlashAttention-3在FP8精度下,通过分块量化和非相干处理,精度提升显著。这项技术革新有望推动大模型训练性能新高。
原文链接
新加坡国立大学尤洋团队创新之作,首次实时生成视频的AI技术——Pyramid Attention Broadcast (PAB)惊艳亮相!这项免训练方法利用5个4s 480p视频测试,实现21.6FPS的实时生成,且质量不降。PAB通过减少冗余注意力计算,提供10.6倍加速,革新了基于DiT的视频生成模型,如Open-Sora。网友和专业人士高度评价,认为这是视频生成领域的重大突破,可能开启新纪元。研究已在Open-Sora上公开,尤洋教授带领的年轻团队展现了前沿科技实力。
原文链接
加载更多

暂无内容