综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
字节Seed:大概念模型来了,推理的何必是下一个token
LLM的推理单位,为什么一定要是Token?字节Seed团队最新研究——DLCM(Dynamic Large Concept Models),将大模型的推理单位从Token(词)提升到Concept(概念)层级。通过端到端学习语义边界,动态...
原文链接
推理成本降至1元/每百万token,浪潮信息突破AI规模化瓶颈
允中 发自 凹非寺
量子位 | 公众号 QbitAI
全球AI产业已从模型性能竞争转向智能体规模化落地的关键阶段,“降本”成为决定AI企业盈利与行业突破的核心。在此背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次...
原文链接
12月23日,飞猪发布《2025旅行AI指数》,显示其消费级AI能力已广泛应用,Token消耗量同比增长20倍,日均用户调用次数增7.7倍。旅行AI在售前咨询、商品挑选、售后服务等环节实现落地,尤其在省心和省钱方面表现突出,如提供特价机票、错峰出行方案等。数据显示,凌晨和银发族成为高频使用群体,最年长用户达88岁。此外,AI工具在行程规划中占比近30%,生成信息更直观且交互便捷性提升。平台商家调用AI运营工具次数同比增2.4倍,AI发品助手使用次数增13倍。飞猪AI累计收到约13亿次正向反馈,用户满意度较高。
原文链接
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law
MiniMax海螺视频团队近日开源了一项重要成果,解决了困扰行业已久的难题:为什么增加视觉分词器(Tokenizer)的算力投入,却无法显著提升生成模型的效果?
当前主流的图像/视频生成模型采用“两阶段”框架:...
原文链接
12月18日,上海世博中心火山引擎原动力大会现场,豆包大模型日均Tokens使用量突破50万亿,居中国第一、全球第三。火山引擎发布豆包大模型1.8等系列升级,强化其在AI云时代的战略布局。数据显示,2025年上半年中国公有云上大模型调用量达536.7万亿Tokens,火山引擎占49.2%市场份额。火山引擎通过MaaS平台推动AI产业化落地,服务覆盖金融、教育、汽车等领域,合作客户包括中信证券、北京大学、特斯拉等。同日,火山引擎推出“AI节省计划”,最高可节省47%使用成本,并发布下一代企业AI协同入口AgentSphere,加速智能体规模化应用。
原文链接
标题:为智能付费,而非Token丨RockAI刘凡平@MEET2026
“人工智能要迈向新阶段,必须突破两座大山:Transformer和反向传播算法。”在大模型算力与数据竞争白热化的当下,RockAI创始人刘凡平提出了一个颠覆主流的观点:未来智能的关键不在于“更大”,而在于“活起来”。
他...
原文链接
2025年12月,OpenRouter与a16z联合发布《State of AI》报告,基于100万亿Token分析AI趋势。报告显示,开源模型使用量预计年底达1/3,中国开源模型周使用量占比从1.2%增至30%,成为主要增长引擎。编程和角色扮演是主要应用场景,推理模型逐渐取代语言生成系统,工具调用占比上升。用户留存呈现“水晶鞋效应”,早期突破性模型锁定核心用户。此外,亚洲地区付费使用量占比翻倍至31%,北美市场占比降至不足50%,简体中文使用量居第二。报告还指出,模型价格下降对使用量影响有限,揭示了‘杰文斯悖论’。
原文链接
科技媒体 ufukozen 于11月5日爆料,谷歌下一代旗舰AI模型Gemini 3 Pro预计将在2025年11月发布。该模型的预览版已在企业级平台Vertex AI上被发现,标签为“gemini-3-pro-preview-11-2025”。Gemini 3 Pro以其高达100万tokens的上下文窗口成为关注焦点,相当于可一次性处理75万英文单词或一本300页书籍的内容。这一突破性能力使其在分析复杂文件、代码库及多步骤对话中表现出色。此外,Gemini 3 Pro将进一步提升多模态处理能力,包括图像视频分析、语音识别与跨模态推理等。据悉,谷歌可能同步推出新型图像生成模型Nano Banana 2,二者结合或将在文生图等领域展现强大潜力,彰显谷歌构建全面AI生态的战略意图。
原文链接
10月22日,智谱与DeepSeek在视觉Token研究上再度‘撞车’。DeepSeek-OCR发布不到一天,智谱便开源了其视觉Token方案Glyph。两者均通过视觉方式破解LLM上下文冗长的难题。Glyph将文本渲染成图像式视觉Token,大幅压缩上下文长度,最高可实现3-4倍的Token压缩率,同时保持与主流模型相当的准确度。实验显示,Glyph在极端压缩下仍能应对百万级Token任务,并提升推理速度4倍、训练效率2倍。论文由清华大学团队完成,一作为博士生Jiale Cheng,通讯作者为黄民烈教授。视觉Token潜力巨大,DeepSeek-OCR用100个视觉Token即可达到97.3%准确率,单张A100 GPU日处理超20万页文档。未来,像素可能取代文本成为AI的基本信息单元。
原文链接
2025年10月20日,DeepSeek开源了3B参数的小模型DeepSeek-OCR,创新性地采用“光学压缩”技术处理文本信息。通过将文本转为图像,模型实现7-20倍的Token压缩率,同时保持OCR准确率高达97%以上。其核心组件包括负责图像特征提取的DeepEncoder和基于MoE设计的解码器DeepSeek-3B-MoE,能在高分辨率输入下控制内存开销,并支持多分辨率模式。团队利用3000万页多语言PDF数据训练模型,涵盖100种语言,还开发了“模型飞轮”机制优化少数语言识别能力。此外,DeepSeek-OCR具备深度解析功能,可提取复杂图像中的结构化数据,在STEM领域潜力巨大。研究还提出用光学压缩模拟人类遗忘机制,探索超长上下文处理的新方向。这一创新为VLM和LLM的发展开辟了新赛道。
原文链接
加载更多
暂无内容