1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地

允中 发自 凹非寺
量子位 | 公众号 QbitAI

一款“反直觉”的产品,往往最能折射产业的真实需求。3月25日,北大系AI创企硅心科技(aiXcoder)发布了一款专为代码变更场景设计的轻量级模型——aiX-apply-4B。基准测试显示,该模型在20多种编程语言及Markdown文件格式上的平均准确率达93.8%,超越Qwen3-4B基座模型(62.6%),甚至媲美千亿级大模型DeepSeek-V3.2(92.5%)。更令人惊讶的是,其算力成本仅为DeepSeek-V3.2的5%,推理速度却提升15倍,仅需一张消费级显卡即可部署。

随着多智能体协作框架的普及,企业AI应用对算力的需求激增。复杂任务通常需要10到50次模型调用,Token消耗成倍增长,尤其在金融、通信等关键领域,私有化部署的算力资源极为有限。面对这一挑战,aiXcoder推出aiX-apply-4B,专注于代码变更场景,将生成的代码精准无损地应用到原始文件中,同时保持上下文一致性。

为贴合企业需求,aiX-apply-4B基于真实代码提交记录训练,并引入自适应投机采样技术,极大压缩了延迟。实测显示,该模型在单张RTX 4090显卡上每秒可处理2000 tokens,而DeepSeek-V3.2需八卡H200集群支持。此外,aiX-apply-4B在泛化能力上表现优异,即使面对冷门编程语言或超长代码文件,依然稳定可靠。

aiXcoder还提出“大模型+小模型”协同架构,通过分工合作最大化释放算力价值:大模型负责复杂推理,小模型专注高频工程任务。这种设计不仅节约算力,还显著提升了企业AI研发效率,为智能化软件开发提供了新思路。

原文链接
本文链接:https://kx.umi6.com/article/34254.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
罗福莉加入小米后首秀,解释 MiMo-V2-Flash 模型如何做到推理速度飞快
2025-12-17 11:39:04
谷歌推理最快、成本效益最高 AI 模型:Gemini 2.5 Flash-Lite 亮相,全面升级编码、翻译、推理
2025-06-18 08:33:43
8.9ms,推理速度新纪录!1块钱百万token,浪潮信息AI服务器加速智能体产业化
2025-09-29 14:08:52
梁文锋亲自挂名,DeepSeek 最新论文丢出注意力新机制,推理速度直线提升 11 倍
2025-02-24 14:32:24
DeepSeek又一论文上新
2026-02-27 15:54:06
单张显卡跑出15倍推理速度,aiX-apply-4B小模型加速企业AI研发落地
2026-03-30 09:37:58
拆分Transformer注意力,韩国团队让大模型解码提速20倍
2024-07-02 15:00:28
支持消费级显卡部署:腾讯混元 3D 世界模型宣布推出 Lite 版本,推理速度提升 3 倍以上且精度损失 <1%
2025-08-15 19:20:35
Qwen2.5更新百万超长上下文,推理速度4.3倍加速,网友:RAG要过时了
2024-11-19 13:44:15
智谱发布新一代开源模型 极速版最高达到200tokens/秒
2025-04-15 08:25:16
拆分Transformer注意力,韩国人要给大模型“踩油门”
2024-07-02 20:53:35
英伟达合作推出 Fast-dLLM 框架,AI 扩散模型推理速度最高飙升 27.6 倍
2025-06-03 12:54:51
字节跳动Seed团队发布扩散语言模型 每秒推理速度2146 tokens
2025-08-01 09:24:01
24小时热文
更多
扫一扫体验小程序