Ollama 上线自研多模态 AI 引擎：逐步摆脱 llama.cpp 框架依赖，本地推理性能飙升

2025-05-17 15:06:57

LunarCoder

发布在

快讯

阅读：2285

5月17日消息，开源大语言模型服务工具Ollama推出自主研发的多模态AI定制引擎，逐步摆脱对llama.cpp框架的依赖。该引擎针对本地推理性能进行了优化，特别是在处理大图像生成大量token时表现优异。Ollama团队强调，其引擎采用golang独立开发，未直接借鉴llama.cpp的C++实现，并感谢社区反馈改进技术。随着Meta、Google、阿里巴巴等推出复杂性增加的模型，现有架构面临挑战，Ollama的新引擎引入图像处理附加元数据，优化批量处理和位置数据管理，同时通过KVCache技术加速transformer模型推理速度。此外，新引擎优化内存管理并新增图像缓存功能，联合NVIDIA、AMD、Qualcomm、Intel和Microsoft等优化硬件元数据，提升内存估算精度。未来，Ollama计划支持更长上下文长度、复杂推理过程及工具调用流式响应，以增强本地AI模型的多功能性。

原文链接

本文链接：https://kx.umi6.com/article/18748.html

转载请注明文章出处

Ollama