延迟 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌更新Gemini API定价按推理使用分档计费

4月3日，谷歌更新Gemini API定价策略，按推理使用需求分档计费。新增五个档位：标准、弹性、优先、批量和缓存版。弹性档位利用闲置算力，提供五折优惠，延迟1至15分钟，无延迟保证；批量档位同样五折，延迟最长24小时。缓存档位按Token数量与存储时长计费，适合复杂指令对话、长视频分析及大规模文档查询场景。优先档位价格比标准高出75%-100%，延迟控制在毫秒至秒级，适用于实时客服、欺诈检测等关键业务场景。

原文链接

智慧轨迹

04-03 15:09:30

分享至

打开微信扫一扫

内容投诉

生成图片

草稿链代替思维链，推理token砍掉80%，显著降低算力成本和延迟

标题：草稿链替代思维链，推理token减少80%，显著降低成本和延迟推理token减少80%-90%，准确率变化不大，某些任务甚至提升。Zoom团队提出“草稿链”，一种思维链替代方案，显著降低延迟和算力成本。草稿链通过生成简洁、信息密集的token简化推理过程，灵感源自人类解题时的简略思考方式。该...

原文链接

智慧轨迹

03-11 14:31:21

分享至

打开微信扫一扫

内容投诉

生成图片

消息称因 AI 回答不靠谱，亚马逊 Alexa 升级版将推迟上线

据《华盛顿邮报》报道，亚马逊计划于2月26日展示其AI升级版Alexa，但因测试中发现回答不准确问题，该升级版将推迟至3月31日或更晚发布。原计划中，升级版Alexa具备呈现特定性格、记住对话、点外卖及叫车等功能。亚马逊曾预计在数月内完成升级，但至今未实现。此外，苹果Siri的人工智能升级也可能因响应慢、回答生硬等问题推迟至5月推出。

原文链接

智能涌动

02-16 08:18:05

分享至

打开微信扫一扫

内容投诉

生成图片

从1纳秒到2天：你的系统延迟“合理”吗？

本文探讨了IT系统中的延迟问题，从1纳秒到2天，涵盖了CPU、内存、网络、硬盘等组件的响应时间。作者强调了理解延迟指标对性能优化和产品设计的重要性，指出即使在现代技术中，光速限制等因素决定了某些延迟的理论最低值。例如，北京到广州的延迟受物理距离影响，不可能低于6毫秒。文章介绍了不同延迟级别下的典型活动，如CPU的20纳秒以下、内存读写和网络操作的微秒级，以及广域网通信的毫秒至秒级延迟。最后，作者提醒在产品设计和性能需求设定时，需考虑这些延迟因素。本文摘自公众号“云算计”，作者曹亚孟。

原文链接