综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
32倍压缩率下性能反超25个点!破解长文本压缩「翻车」难题 | ICLR 2026
现有上下文压缩方法在高压缩率下常“翻车”,例如将32K文本压缩到1K时性能骤降。这是因为压缩过程中容易保留大量“高度相似却重复”的内容,导致“信息内卷”:看似相关,实则堆砌冗余token,误导模型生成错误答案。
阿里...
原文链接
2026年2月13日,据《科创板日报》报道,DeepSeek官方助手在开发者交流群中透露,其网页和APP端正在测试一种新的长文本模型结构,支持1M上下文长度。此次更新仅限网页与APP端,而API服务保持不变,仍为V3.2版本,最高支持128K上下文。这一进展显示出DeepSeek在大模型领域的持续探索和技术突破。(记者 黄心怡)
原文链接
美团龙猫LongCat系列推出全新稀疏注意力机制LoZA(LongCat ZigZag Attention),显著提升长文本处理能力。新技术将上下文窗口扩展至1M,解码速度比之前快10倍,且在256K文本预加载时提速超50%。
全注意力机制因平方级计算复杂度(O(L²))难以高效处理长文本。LoZA...
原文链接
正文:2025年12月,中国联通数据科学与人工智能研究院在AAAI 2026 (Oral)发表新研究HiMo-CLIP,突破长文本图像检索难题。该模型通过建模“语义层级”与“语义单调性”,自动捕捉语境中的“语义差异点”,显著提升长文本和组合性文本的检索精度,同时兼顾短文本性能。HiMo-CLIP采用层级分解模块(HiDe)和单调性感知对比损失(MoLo),动态提取关键特征并优化图文对齐机制。实验显示,仅用1M训练数据,HiMo-CLIP性能超越使用100M甚至10B数据的现有方法,并在自建数据集HiMo-Docci上取得SOTA结果。
原文链接
10月14日,苹果公司联合俄亥俄州立大学发布新型语言模型FS-DFM(Few-Step Discrete Flow-Matching),专攻长文本生成效率瓶颈。该模型仅需8轮迭代即可媲美传统扩散模型上千轮的生成质量,速度提升最高达128倍。作为扩散模型变体,FS-DFM通过三步法优化:灵活适应迭代次数、引入“教师”模型引导更新、改进迭代机制以减少步骤。测试显示,其参数量为1.7亿至17亿的变体在困惑度和熵指标上优于参数量更大的Dream和LLaDA模型,生成文本更流畅且稳定。这一突破将显著提升AI长文写作效率。
原文链接
8月21日,字节跳动Seed团队宣布开源Seed-OSS-36B系列大模型。该模型专为长上下文、推理、Agent和通用场景设计,最大上下文长度可达512k tokens,显著提升了处理长文本的能力。这一开源项目为开发者提供了更强大的工具,适用于多种复杂应用场景。
原文链接
在2025年7月31日的ACL 2025颁奖典礼上,DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力(NSA)机制通过算法与硬件协同优化,将长文本处理速度提升11倍,且性能超越传统全注意力模型。一作袁境阳透露,该技术可扩展上下文至1百万tokens,可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示,NSA在多项基准测试中表现优异,尤其在复杂推理和长文本任务中显著领先。此外,会议还评选出其他三篇*论文,分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论,为AI领域带来新洞见。
原文链接
7月30日,阿里通义千问宣布推出Qwen3-30B-A3B模型的新版本:Qwen3-30B-A3B-Instruct-2507。该模型为非思考模式(non-thinking mode),长文本理解能力提升至256K,仅激活3B参数即可达到与Gemini 2.5-Flash(non-thinking)和GPT-4o等闭源模型相媲美的性能。这一更新显著优化了模型效率与表现,为开发者和用户提供了更强大的工具支持。
原文链接
7月22日,阿里通义千问宣布更新旗舰版Qwen3模型,推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K,并优化非思考模式(Non-thinking)性能。新版模型已在魔搭社区和HuggingFace平台开源更新,为开发者提供更强大的技术支持与应用可能性。
原文链接
标题:1万tokens成大模型长文本“智商”分水岭
正文:
当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5...
原文链接
加载更多
暂无内容