
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月21日,DeepSeek发布V3.1版本,称其为“迈向Agent时代的*步”。新版本采用混合推理架构,支持思考与非思考模式,兼顾快速响应与复杂推理需求。相比前代模型,V3.1生成结果的token数量减少20%-50%,响应速度提升且成本降低。同时,它支持128K上下文扩展和FP8精度推理,强化吞吐效率与能耗表现。在智能体能力上,V3.1在代码修复、命令行任务及复杂搜索场景中表现出色,显著优于前代。商业方面,DeepSeek采取“双轨”策略:9月6日起调整API价格并取消夜间优惠,同时开源Base模型与后训练版本。此次更新还适配了新一代国产芯片技术规范,或意在与GPT5竞争,展现更强的任务处理能力与灵活性。
原文链接
2025年8月21日,DeepSeek官方发布DeepSeek-V3.1版本。新版本采用混合推理架构,支持思考与非思考模式切换,思考效率显著提升,输出token减少20%-50%且性能持平。Agent能力增强,在编程、搜索任务中表现优异,复杂任务完成率大幅领先前代模型。API同步升级,新增Anthropic API格式支持及strict模式Function Calling功能。Base与后训练模型已在Huggingface和魔搭开源。此外,官方宣布将于9月6日调整API调用价格并取消夜间优惠,当前用户可继续享受原价至生效日期。
原文链接
趋境科技推出大模型知识推理一体机,革新“全系统推理架构”,旨在帮助企业高效利用推理资源。随着大模型应用的普及,推理端人工智能服务器预计占比将达72.6%,而开源大模型的进展进一步推动了这一趋势。然而,当前的挑战在于,尽管模型效果显著提升,但在实际部署中面临高昂成本和低效问题,形成“不可能三角”。
趋...
原文链接
国产大模型Kimi的最新论文揭示其推理架构Mooncake,这款分离式设计的系统可高效应对80%的高流量。Mooncake通过KV缓存、分离的Prefill和Decoding节点集群,以及RDMA通信,提升了525%的吞吐量和75%的请求处理能力。核心策略包括智能调度、热点迁移和基于预测的早期拒绝,有效降低延迟并适应复杂负载。论文详细介绍了Mooncake的内部机制及优化效果,展示在ArXiv和L-Eval数据集上的显著性能提升。随着大模型服务需求的增长,月之暗面团队将继续优化硬件友好的分布式策略。
原文链接
加载更多

暂无内容