大模型推理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

计算所严明玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不一定更快

标题：计算所严明玉团队新作：Attention 并非永远是瓶颈，多 GPU 并不一定更快随着大语言模型逐步应用于实际场景，推理性能成为落地的关键挑战。模型规模扩大、上下文增长以及 RAG、MoE 等新方法的引入，使得延迟、吞吐和能耗问题更加复杂。中国科学院计算所严明玉团队联合中国电信云计算研究...

原文链接

AI思维矩阵

12-22 11:41:00

分享至

打开微信扫一扫

内容投诉

生成图片

xLLM社区重磅首秀，揭秘大模型推理全景图与开源AI Infra生态

12月6日，xLLM社区将在北京举办主题为“共建开源 AI Infra 生态”的线下Meetup。作为成立仅三个月的新兴社区，xLLM首次全面展示其技术愿景、核心规划及生态全景，定位为下一代大模型推理引擎框架，支持多元化AI场景，如大语言模型、多模态生成、文生图和文生视频等。活动将揭秘其创新架构及未来演进方向，并分享与京东11.11大促合作提升业务效率5倍的成果。清华大学副教授章明星将解读Mooncake存储方案，北京智源人工智能研究院门春雷探讨硬件优化实践。xLLM已开源，适配国产算力，与昇腾合作探索高性能推理方案，未来还将联合清华、北大等产学研伙伴推动AI生态协同创新。诚邀开发者、研究者及行业伙伴参与交流。

原文链接

Journeyman

11-24 21:15:56

分享至

打开微信扫一扫

内容投诉

生成图片

趋境开源框架 KTransformers 成主流大模型首选，Qwen、Kimi、智谱 AI 推荐，单卡跑万亿模型

标题：KTransformers 成主流大模型推理引擎，单卡跑万亿模型正文：趋境科技与清华联合开源的高性能异构推理框架 KTransformers，已成为 Qwen、Kimi、智谱 AI 等主流大模型的推荐推理引擎，并被多家硬件厂商采纳。其技术实力获国际认可，论文入选“计算机系统领域奥斯卡”...

原文链接

DreamCoder

11-20 22:47:09

分享至

打开微信扫一扫

内容投诉

生成图片

斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

斯坦福大模型推理课免费开放，谷歌推理团队创始人主讲量子位 | 公众号 QbitAI 干货来了！谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明：只要思维链足够长，T...

原文链接

智能涌动

07-25 17:26:56

分享至

打开微信扫一扫

内容投诉

生成图片

纯靠“脑补”图像，大模型推理准确率狂飙80%丨剑桥谷歌新研究

标题：纯靠“脑补”图像，大模型推理准确率提升80%！剑桥谷歌新研究正文：不再依赖语言，仅凭图像就能完成模型推理？大模型再创SOTA！当你玩超级玛丽时，会根据画面自动规划步骤，但传统语言模型还需先转成文字指令，效率低且易丢信息。有方法能跳过“语言中介”吗？剑桥、伦敦大学学院与谷歌团...

原文链接

量子黑客

05-21 17:08:17

分享至

打开微信扫一扫

内容投诉

生成图片

Deepseek大模型推理算法其实很简单

标题：Deepseek大模型推理算法其实很简单性能顶级的Deepseek大模型开源后，人们轻松地将其部署使用。在配置一般的联想PC上，安装7B参数版本的Deepseek R1已成功。最强的671B版本需要更高配置，但也完全可行。大模型开发包括训练和推理两部分，推理是较易的部分。有了权重文件，大模...

原文链接

新智燎原

02-09 16:51:53

分享至

打开微信扫一扫

内容投诉

生成图片

让用户无痛开发AI应用，袁进辉新公司获近亿元天使+轮融资 | 36氪首发

AI初创公司"硅基流动"近日完成近亿元天使+轮融资，由知名产业方领投，包括智谱AI、360等在内的多家企业跟进，创始人袁进辉表示将加速产品创新，提供易用的AI云服务。该公司专注AI基础设施，旨在优化大模型训练与推理效率，降低开发门槛。此前，袁进辉曾领导OneFlow推出高性能深度学习框架，后创立硅基流动，聚焦大模型推理领域。6月，硅基流动推出一站式大模型API云服务平台SiliconCloud，集成多种大模型，日调用量快速增长，且已获得行业顶级合作伙伴的认可。未来，公司计划拓展海外市场。

原文链接

神经网络领航员

07-04 12:29:16

分享至

打开微信扫一扫

内容投诉

生成图片

我读了读苹果的AI大模型论文，发现这几个秘密

在 WWDC 上，苹果宣布了其AI战略，并面临手机内存限制在本地运行大型模型的挑战。为了解决这一问题，苹果发布了一篇关键论文，介绍如何在iPhone的8GB内存限制下，通过利用FFN层的稀疏性、低秩预测器、滑动窗口动态加载（Windowing）和行列捆绑存储（Bundling）技术，将大模型推理效率提升。例如，6.7B参数的模型在M1 Max上通过这些优化能在6.5GB内存中运行14.3GB模型，提升了20-25倍的推理速度，且I/O延迟大幅降低。苹果作为端侧AI的领导者，有望在AI时代继续保持创新，推动更多实际应用。

原文链接

智慧轨迹

06-26 22:45:35

分享至

打开微信扫一扫

内容投诉

生成图片

Apple的AI奠基性论文解读

标题：苹果AI战略的新突破：高效大模型在手机端推理今年WWDC，苹果展示了其AI重点，定义为"Apple Intelligence"。大模型虽强大，但手机内存受限，难以直接运行大型模型。为此，苹果发布了一篇关键论文，解决在手机上利用有限内存高效推理的问题。论文核心是利用FFN层的稀疏性。大模型中...

原文链接