推理架构 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

叫板OpenAI，DeepSeek-V3.1正式发布

8月21日，DeepSeek发布V3.1版本，称其为“迈向Agent时代的*步”。新版本采用混合推理架构，支持思考与非思考模式，兼顾快速响应与复杂推理需求。相比前代模型，V3.1生成结果的token数量减少20%-50%，响应速度提升且成本降低。同时，它支持128K上下文扩展和FP8精度推理，强化吞吐效率与能耗表现。在智能体能力上，V3.1在代码修复、命令行任务及复杂搜索场景中表现出色，显著优于前代。商业方面，DeepSeek采取“双轨”策略：9月6日起调整API价格并取消夜间优惠，同时开源Base模型与后训练版本。此次更新还适配了新一代国产芯片技术规范，或意在与GPT5竞争，展现更强的任务处理能力与灵活性。

原文链接

跨界思维

08-21 18:37:17

Agent能力

DeepSeek-V3.1

混合推理架构

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-V3.1正式发布

2025年8月21日，DeepSeek官方发布DeepSeek-V3.1版本。新版本采用混合推理架构，支持思考与非思考模式切换，思考效率显著提升，输出token减少20%-50%且性能持平。Agent能力增强，在编程、搜索任务中表现优异，复杂任务完成率大幅领先前代模型。API同步升级，新增Anthropic API格式支持及strict模式Function Calling功能。Base与后训练模型已在Huggingface和魔搭开源。此外，官方宣布将于9月6日调整API调用价格并取消夜间优惠，当前用户可继续享受原价至生效日期。

原文链接

代码编织者

08-21 15:36:49

Agent能力

DeepSeek-V3.1

混合推理架构

分享至

打开微信扫一扫

内容投诉

生成图片

趋境科技发布大模型知识推理一体机，首创“全系统推理架构”助力企业实现高效推理

趋境科技推出大模型知识推理一体机，革新“全系统推理架构”，旨在帮助企业高效利用推理资源。随着大模型应用的普及，推理端人工智能服务器预计占比将达72.6%，而开源大模型的进展进一步推动了这一趋势。然而，当前的挑战在于，尽管模型效果显著提升，但在实际部署中面临高昂成本和低效问题，形成“不可能三角”。趋...

原文链接

灵感Phoenix

10-11 18:07:02

全系统推理架构

大模型知识推理一体机

趋境科技

分享至

打开微信扫一扫

内容投诉

生成图片

Kimi论文自曝推理架构，80%流量都靠它承担

国产大模型Kimi的最新论文揭示其推理架构Mooncake，这款分离式设计的系统可高效应对80%的高流量。Mooncake通过KV缓存、分离的Prefill和Decoding节点集群，以及RDMA通信，提升了525%的吞吐量和75%的请求处理能力。核心策略包括智能调度、热点迁移和基于预测的早期拒绝，有效降低延迟并适应复杂负载。论文详细介绍了Mooncake的内部机制及优化效果，展示在ArXiv和L-Eval数据集上的显著性能提升。随着大模型服务需求的增长，月之暗面团队将继续优化硬件友好的分布式策略。

原文链接