1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
10月22日,智谱与DeepSeek在视觉Token研究上再度‘撞车’。DeepSeek-OCR发布不到一天,智谱便开源了其视觉Token方案Glyph。两者均通过视觉方式破解LLM上下文冗长的难题。Glyph将文本渲染成图像式视觉Token,大幅压缩上下文长度,最高可实现3-4倍的Token压缩率,同时保持与主流模型相当的准确度。实验显示,Glyph在极端压缩下仍能应对百万级Token任务,并提升推理速度4倍、训练效率2倍。论文由清华大学团队完成,一作为博士生Jiale Cheng,通讯作者为黄民烈教授。视觉Token潜力巨大,DeepSeek-OCR用100个视觉Token即可达到97.3%准确率,单张A100 GPU日处理超20万页文档。未来,像素可能取代文本成为AI的基本信息单元。
Nebula
10-23 15:07:10
Glyph
上下文压缩
视觉Token
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新模型被硅谷夸疯了!“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型以3B参数规模,通过“视觉压缩文本”方法解决大模型处理长文本的算力难题,被认为可能泄露谷歌Gemini商业机密。其核心创新是将文字信息压缩至图像中,用少量视觉token替代大量文本token,显著降低计算开销,并在主流基准OmniDocBench上取得SOTA表现。模型支持多种复杂文档解析,如金融报表、化学分子式等。研究团队由Haoran Wei等三位成员组成,他们还提出模拟人类遗忘机制的新思路,为AI记忆架构提供新方向。目前,该模型已在GitHub获3.3K星,HuggingFace热榜第二,受到卡帕西等专家高度评价。
DreamCoder
10-21 10:24:34
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型通过二维视觉压缩一维文字,显著降低大模型处理长文本的算力需求。其核心创新是“上下文光学压缩”思路,用少量视觉token表示大量文本信息,在OmniDocBench基准测试中取得SOTA表现。例如,仅用100个视觉token即可超越GOT-OCR2.0。模型由编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,支持多种压缩模式,适用于复杂文档解析。研究团队还提出模拟人类遗忘机制的新思路,动态分配计算资源以优化超长上下文处理能力。目前,项目已在GitHub获3.3K星,HuggingFace热榜排名第二。
AI幻想空间站
10-21 08:19:45
DeepSeek-OCR
上下文光学压缩
视觉压缩
分享至
打开微信扫一扫
内容投诉
生成图片
为什么只有5%的AI Agent落地成功?
标题:为什么只有5%的AI Agent落地成功? 正文: 硅谷一线AI创业者数据显示,95%的AI Agent在生产环境中部署失败。失败的原因并非模型不够智能,而是上下文工程、安全性、记忆设计等关键环节不到位。大多数团队误以为自己在开发AI产品,实际上只是在构建“上下文选择系统”。 旧金山的...
镜像现实MirageX
10-16 09:51:37
上下文工程
信任体验
记忆设计
分享至
打开微信扫一扫
内容投诉
生成图片
斯坦福新论文:微调已死,自主上下文当立
斯坦福大学、SambaNova Systems和加州大学伯克利分校的研究团队提出了一种名为ACE(智能体上下文工程)的新方法,宣称无需微调即可提升模型性能。该方法通过生成器、反思器和整理器三个角色分工协作,使上下文自主进化并优化,避免传统上下文适配中的“简洁偏置”和“上下文崩溃”问题。实验表明,ACE在智能体任务和财务分析场景中均显著优于ICL、GEPA等基线方法,性能提升达7.6%-12.3%,同时大幅降低自适应成本与延迟。研究的一作由两位华人学者担任,分别来自斯坦福和SambaNova Systems。这项成果或将改变AI模型优化的方向。
电子诗篇
10-11 14:27:49
ACE框架
上下文工程
斯坦福大学
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达新GPU,超长上下文/视频生成专用
2025年9月14日,英伟达在AI Infra Summit上发布全新GPU——NVIDIA Rubin CPX,专为处理百万token级别的代码生成和生成式视频任务设计。这款基于Rubin架构的GPU采用单片设计,内置NVFP4计算资源,提供高达30PFLOPS算力,配备128GB GDDR7内存,性能较A100显著提升。Rubin CPX可与Vera CPU和GPU协同工作,构成Vera Rubin NVL144 CPX平台,实现8EFLOPS AI算力和1.7PB/s内存带宽,较现有系统提升7.5倍。其应用场景包括复杂软件项目优化、高质量生成式视频等。英伟达预计Rubin CPX将于2026年底正式推出,并将获得完整AI软件栈支持。行业专家认为该产品将在代码生产力和影像创作领域带来突破。
未来编码者
09-14 14:42:14
Rubin CPX
英伟达
超长上下文
分享至
打开微信扫一扫
内容投诉
生成图片
推理算力“正在耗尽”?百万Token时代来临 产业打响新一轮竞逐
9月13日,AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU,称其投资回报率可达50倍,远超以往产品,并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出,AI推理市场将远大于训练市场,且推理算力正被快速耗尽。数据显示,Google、微软和字节等大厂Token调用量呈爆发式增长,行业对长上下文需求激增。东吴证券认为,Rubin CPX推出标志着算力基建进入分工协作新阶段,硬件与软件耦合度提升,GPU、存储等相关厂商有望受益。
星际Code流浪者
09-13 18:29:27
推理算力
百万Token
长上下文
分享至
打开微信扫一扫
内容投诉
生成图片
英伟达发布超长上下文推理芯片Rubin CPX 算力效率拉爆当前旗舰
2025年9月10日,英伟达宣布推出专为长上下文工作负载设计的GPU芯片Rubin CPX,显著提升AI推理效率,特别是在编程和视频生成等需要超长上下文的应用场景。Rubin CPX基于下一代顶级算力芯片Rubin开发,预计2026年底出货。新芯片将集成在NVIDIA Vera Rubin NVL144 CPX服务器中,性能较当前旗舰GB300 NVL72提升最多6.5倍,提供8exaFLOPs算力、100TB高速内存和1.7PB/s带宽。英伟达表示,部署价值1亿美元的新芯片可为客户带来50亿美元收入。Rubin CPX针对数百万tokens级别的长上下文优化,配备30petaFLOPs算力和128GB GDDR7内存,分离上下文与生成阶段计算负载,大幅提升资源利用率。
心智奇点
09-10 08:32:11
Rubin CPX
英伟达
长上下文推理
分享至
打开微信扫一扫
内容投诉
生成图片
首款专为大规模上下文 AI 设计的 CUDA GPU,英伟达 Rubin CPX 发布
英伟达于9月10日发布首款专为大规模上下文AI设计的CUDA GPU——Rubin CPX。该GPU具备128GB GDDR7显存,支持3倍attention能力,并通过4-bit NVFP4精度提供30 petaflops计算性能,适用于大规模编码和生成视频等高需求任务。新产品将作为Vera Rubin平台的一部分,全机架版本NVL144 CPX可达8 exaflops AI性能。英伟达CEO黄仁勋称其革新了大规模上下文AI处理,并预计1亿美元投资可带来50亿美元收益。Rubin CPX将支持英伟达完整软件栈,包括多模态模型Nemotron系列,预计2026年底正式推出。
梦境编程师
09-10 01:24:36
Rubin CPX
大规模上下文 AI
英伟达
分享至
打开微信扫一扫
内容投诉
生成图片
月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API
9月5日,月之暗面发布Kimi K2模型最新版本(0905),上下文长度扩展至256K,显著提升复杂任务支持能力。新版本在真实编程任务中表现更优,尤其Agentic Coding能力和前端编程体验均有升级。同时推出高速版API,输出速度达60-100 Token/s,并新增多项功能:Token Enforcer确保格式正确、兼容Anthropic API、支持WebSearch Tool和全自动Context Caching。定价与0711版相同,用户可通过Kimi开放平台或Hugging Face、ModelScope部署模型。
星际Code流浪者
09-05 12:17:23
Kimi K2
上下文长度
月之暗面
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序