
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
10月22日,智谱与DeepSeek在视觉Token研究上再度‘撞车’。DeepSeek-OCR发布不到一天,智谱便开源了其视觉Token方案Glyph。两者均通过视觉方式破解LLM上下文冗长的难题。Glyph将文本渲染成图像式视觉Token,大幅压缩上下文长度,最高可实现3-4倍的Token压缩率,同时保持与主流模型相当的准确度。实验显示,Glyph在极端压缩下仍能应对百万级Token任务,并提升推理速度4倍、训练效率2倍。论文由清华大学团队完成,一作为博士生Jiale Cheng,通讯作者为黄民烈教授。视觉Token潜力巨大,DeepSeek-OCR用100个视觉Token即可达到97.3%准确率,单张A100 GPU日处理超20万页文档。未来,像素可能取代文本成为AI的基本信息单元。
原文链接
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型以3B参数规模,通过“视觉压缩文本”方法解决大模型处理长文本的算力难题,被认为可能泄露谷歌Gemini商业机密。其核心创新是将文字信息压缩至图像中,用少量视觉token替代大量文本token,显著降低计算开销,并在主流基准OmniDocBench上取得SOTA表现。模型支持多种复杂文档解析,如金融报表、化学分子式等。研究团队由Haoran Wei等三位成员组成,他们还提出模拟人类遗忘机制的新思路,为AI记忆架构提供新方向。目前,该模型已在GitHub获3.3K星,HuggingFace热榜第二,受到卡帕西等专家高度评价。
原文链接
2025年10月,DeepSeek开源新模型DeepSeek-OCR,引发硅谷热议。该模型通过二维视觉压缩一维文字,显著降低大模型处理长文本的算力需求。其核心创新是“上下文光学压缩”思路,用少量视觉token表示大量文本信息,在OmniDocBench基准测试中取得SOTA表现。例如,仅用100个视觉token即可超越GOT-OCR2.0。模型由编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,支持多种压缩模式,适用于复杂文档解析。研究团队还提出模拟人类遗忘机制的新思路,动态分配计算资源以优化超长上下文处理能力。目前,项目已在GitHub获3.3K星,HuggingFace热榜排名第二。
原文链接
标题:为什么只有5%的AI Agent落地成功?
正文:
硅谷一线AI创业者数据显示,95%的AI Agent在生产环境中部署失败。失败的原因并非模型不够智能,而是上下文工程、安全性、记忆设计等关键环节不到位。大多数团队误以为自己在开发AI产品,实际上只是在构建“上下文选择系统”。
旧金山的...
原文链接
斯坦福大学、SambaNova Systems和加州大学伯克利分校的研究团队提出了一种名为ACE(智能体上下文工程)的新方法,宣称无需微调即可提升模型性能。该方法通过生成器、反思器和整理器三个角色分工协作,使上下文自主进化并优化,避免传统上下文适配中的“简洁偏置”和“上下文崩溃”问题。实验表明,ACE在智能体任务和财务分析场景中均显著优于ICL、GEPA等基线方法,性能提升达7.6%-12.3%,同时大幅降低自适应成本与延迟。研究的一作由两位华人学者担任,分别来自斯坦福和SambaNova Systems。这项成果或将改变AI模型优化的方向。
原文链接
2025年9月14日,英伟达在AI Infra Summit上发布全新GPU——NVIDIA Rubin CPX,专为处理百万token级别的代码生成和生成式视频任务设计。这款基于Rubin架构的GPU采用单片设计,内置NVFP4计算资源,提供高达30PFLOPS算力,配备128GB GDDR7内存,性能较A100显著提升。Rubin CPX可与Vera CPU和GPU协同工作,构成Vera Rubin NVL144 CPX平台,实现8EFLOPS AI算力和1.7PB/s内存带宽,较现有系统提升7.5倍。其应用场景包括复杂软件项目优化、高质量生成式视频等。英伟达预计Rubin CPX将于2026年底正式推出,并将获得完整AI软件栈支持。行业专家认为该产品将在代码生产力和影像创作领域带来突破。
原文链接
9月13日,AI领域焦点从模型参数增长转向推理算力需求。英伟达发布专为长上下文推理设计的Rubin CPX GPU,称其投资回报率可达50倍,远超以往产品,并在MLPerf推理基准测试中创纪录。甲骨文创始人Larry Ellison指出,AI推理市场将远大于训练市场,且推理算力正被快速耗尽。数据显示,Google、微软和字节等大厂Token调用量呈爆发式增长,行业对长上下文需求激增。东吴证券认为,Rubin CPX推出标志着算力基建进入分工协作新阶段,硬件与软件耦合度提升,GPU、存储等相关厂商有望受益。
原文链接
2025年9月10日,英伟达宣布推出专为长上下文工作负载设计的GPU芯片Rubin CPX,显著提升AI推理效率,特别是在编程和视频生成等需要超长上下文的应用场景。Rubin CPX基于下一代顶级算力芯片Rubin开发,预计2026年底出货。新芯片将集成在NVIDIA Vera Rubin NVL144 CPX服务器中,性能较当前旗舰GB300 NVL72提升最多6.5倍,提供8exaFLOPs算力、100TB高速内存和1.7PB/s带宽。英伟达表示,部署价值1亿美元的新芯片可为客户带来50亿美元收入。Rubin CPX针对数百万tokens级别的长上下文优化,配备30petaFLOPs算力和128GB GDDR7内存,分离上下文与生成阶段计算负载,大幅提升资源利用率。
原文链接
英伟达于9月10日发布首款专为大规模上下文AI设计的CUDA GPU——Rubin CPX。该GPU具备128GB GDDR7显存,支持3倍attention能力,并通过4-bit NVFP4精度提供30 petaflops计算性能,适用于大规模编码和生成视频等高需求任务。新产品将作为Vera Rubin平台的一部分,全机架版本NVL144 CPX可达8 exaflops AI性能。英伟达CEO黄仁勋称其革新了大规模上下文AI处理,并预计1亿美元投资可带来50亿美元收益。Rubin CPX将支持英伟达完整软件栈,包括多模态模型Nemotron系列,预计2026年底正式推出。
原文链接
9月5日,月之暗面发布Kimi K2模型最新版本(0905),上下文长度扩展至256K,显著提升复杂任务支持能力。新版本在真实编程任务中表现更优,尤其Agentic Coding能力和前端编程体验均有升级。同时推出高速版API,输出速度达60-100 Token/s,并新增多项功能:Token Enforcer确保格式正确、兼容Anthropic API、支持WebSearch Tool和全自动Context Caching。定价与0711版相同,用户可通过Kimi开放平台或Hugging Face、ModelScope部署模型。
原文链接
加载更多

暂无内容