1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理
6月18日,谷歌发布Gemini 2.5系列AI模型稳定版本,包括Gemini 2.5 Flash和Pro,并推出了全新轻量级模型Gemini 2.5 Flash-Lite。该系列模型以“成本-速度-性能”平衡为目标,适用于生产级应用开发。Spline、Snap等多家公司已利用最新版本进行实际应用开发。Flash-Lite作为成本效益最高、推理速度最快的模型,在代码编写、科学计算及多模态分析中表现优异,尤其在翻译和分类任务中的延迟更低。该模型支持超长上下文处理(达100万token),并可连接外部工具如谷歌搜索和代码执行。开发者可通过Google AI Studio、Vertex AI平台获取稳定版本及Flash-Lite预览版,Gemini应用端和谷歌搜索也集成了相关模型以提升效率。
E-Poet
06-18 08:33:43
AI模型
Gemini 2.5 Flash-Lite
推理速度
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
6月2日,英伟达联合MIT和香港大学推出Fast-dLLM框架,大幅提升扩散模型推理速度。扩散模型因词元依赖关系易破坏及计算成本高等问题,在实际应用中逊于自回归模型。Fast-dLLM通过块状近似KV缓存和置信度感知并行解码策略解决上述问题。KV缓存将序列分块预计算存储,DualCache版本进一步优化;置信度解码选择性解码高置信度词元。Fast-dLLM在GSM8K数据集上实现27.6倍加速,准确率达76.0%,并在MATH、HumanEval和MBPP测试中分别实现6.5倍至7.8倍加速,准确率仅下降1-2个百分点。这项研究使扩散模型具备与自回归模型竞争的能力,为未来广泛应用奠定基础。
心智奇点
06-03 12:54:51
Fast-dLLM
扩散模型
推理速度
分享至
打开微信扫一扫
内容投诉
生成图片
智谱发布新一代开源模型 极速版最高达到200tokens/秒
《科创板日报》15日消息,今日智谱发布新一代开源模型GLM-4-32B-0414系列,包括基座、推理及沉思模型权重,且遵循MIT License。该系列模型现已可通过“z.ai”访问体验。其中,推理模型GLM-Z1-Air/AirX-0414实现了最高200 Tokens/秒的推理速度,在国内商业模型中处于领先水平。此外,GLM-Z1-Air-0414的价格仅为DeepSeek-R1的1/30,性价比突出。
虚拟织梦者
04-15 08:25:16
开源模型
推理速度
智谱
分享至
打开微信扫一扫
内容投诉
生成图片
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
2月18日,梁文锋带领DeepSeek团队发布新研究,论文发布仅3小时即获30多万浏览量。他们提出一种名为NSA的新注意力机制,用于超快速的长上下文训练与推理。NSA包括动态分层稀疏策略、粗粒度的token压缩及细粒度的token选择,使推理速度提升11.6倍,同时降低预训练成本。 梁文锋亲自参与并...
虚拟织梦者
02-24 14:32:24
DeepSeek
推理速度
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
标题:Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了 国产大模型Qwen2.5系列再升级,新增成员Qwen2.5-Turbo,支持超长上下文并提升推理速度。 Qwen2.5-Turbo可处理高达100万token的上下文,相当于10部长篇小说或30000行代码。它能在4...
智慧轨迹
11-19 13:44:15
Qwen2.5-Turbo
推理速度
超长上下文
分享至
打开微信扫一扫
内容投诉
生成图片
LIama 3+Mamba强强联手!蒸馏到线性RNN,推理速度提升1.6倍
Together AI团队成功地将Transformer和Mamba模型结合,推出了Llama 3+Mamba混合模型。通过蒸馏技术,将Transformer的参数集成到Mamba模型中,同时开发了推测解码算法加速推理过程,实现了推理速度最高提升1.6倍的显著效果。这一创新不仅保持了原有模型的高性能,甚至在某些任务上的表现超越了原始模型,尤其是在零样本和少样本的通用自然语言处理任务中。实验结果显示,在多轮聊天对话任务中,混合模型与Llama-3相当或更优,且在零样本任务评测中,混合模型的平均成绩优于同等规模的RNN模型。此外,推测解码算法的应用使得混合模型在单论和多轮任务上的性能得到了显著提升,尤其是在Zephyr和Llama混合模型上,推理速度分别提升了1.8倍和1.6倍以上。这一成果标志着大模型发展方向的一个重要里程碑,展示了混合模型在加速推理过程和提升性能方面的巨大潜力。
梦境编程师
09-10 19:13:45
LIama 3
Mamba
推理速度提升
分享至
打开微信扫一扫
内容投诉
生成图片
拆分Transformer注意力,韩国团队让大模型解码提速20倍
韩国科研团队与科技研究院、LG和DeepMind合作研发了一种新型Transformer架构,称为Block Transformer。这种架构通过分割注意力机制,显著提高了大模型的解码速度,提升了20倍,同时降低了内存需求。研究指出,原始Transformer的全局KV缓存由于频繁访问导致计算效率低下,GPU利用率仅有1%。Block Transformer通过块级和块内注意力机制有效解决了这个问题,提升了推理吞吐量,保持或提高了模型性能。实验显示,Block Transformer在HellaSwag等任务上的准确性与原模型相当,而且在训练效率和内存使用方面表现出色。这项创新技术有潜力加速大模型的实际应用。
量子黑客
07-06 10:24:36
Block Transformer
推理速度提升
注意力切块
分享至
打开微信扫一扫
内容投诉
生成图片
拆分Transformer注意力,韩国人要给大模型“踩油门”
韩国科研团队与LG、DeepMind合作,提出一种新型Transformer架构——Block Transformer,通过切分注意力机制,显著提高了大模型的推理速度,最高提升达20倍。研究人员发现,原始Transformer的全局KV缓存频繁访问导致效率低下,他们将注意力分为块级和块内,降低了内存开销,GPU利用率提升至44%。Block Transformer在保持低训练损失的同时,性能在HellaSwag等任务上与原模型相当甚至更好,展示了优秀的训练效率。详情请参考arXiv:2406.02657。#Transformer创新#韩国科技突破#模型效率提升
代码编织者Nexus
07-02 20:53:35
Block Transformer
推理速度
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
拆分Transformer注意力,韩国团队让大模型解码提速20倍
韩国科研团队提出创新Transformer架构Block Transformer,通过拆分注意力机制,成功将大模型的解码速度提升20倍,有效解决了原始Transformer全局KV缓存频繁访问导致的低效问题。新架构在保持性能的同时,内存开销显著降低,GPU利用率从1%提升至44%,并在HellaSwag等任务上实现了与原模型相近甚至更高的准确率。研究论文已发表于arXiv:2406.02657。这项突破性成果有望加速大模型的实际应用。
量子思考者
07-02 15:00:28
Block Transformer
推理速度
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序