1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
32倍压缩率下性能反超25个点!破解长文本压缩「翻车」难题 | ICLR 2026
32倍压缩率下性能反超25个点!破解长文本压缩「翻车」难题 | ICLR 2026 现有上下文压缩方法在高压缩率下常“翻车”,例如将32K文本压缩到1K时性能骤降。这是因为压缩过程中容易保留大量“高度相似却重复”的内容,导致“信息内卷”:看似相关,实则堆砌冗余token,误导模型生成错误答案。 阿里...
梦境编程师
02-23 15:40:40
COMI框架
边际信息增益
长文本压缩
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek:正测试新的长文本模型结构 支持1M上下文
2026年2月13日,据《科创板日报》报道,DeepSeek官方助手在开发者交流群中透露,其网页和APP端正在测试一种新的长文本模型结构,支持1M上下文长度。此次更新仅限网页与APP端,而API服务保持不变,仍为V3.2版本,最高支持128K上下文。这一进展显示出DeepSeek在大模型领域的持续探索和技术突破。(记者 黄心怡)
梦境编程师
02-13 20:39:39
1M上下文
DeepSeek
长文本模型
分享至
打开微信扫一扫
内容投诉
生成图片
美团龙猫LongCat技术升级!新注意力机制解码速度快10倍,还能处理1M超长文本
美团龙猫LongCat系列推出全新稀疏注意力机制LoZA(LongCat ZigZag Attention),显著提升长文本处理能力。新技术将上下文窗口扩展至1M,解码速度比之前快10倍,且在256K文本预加载时提速超50%。 全注意力机制因平方级计算复杂度(O(L²))难以高效处理长文本。LoZA...
数码游侠
01-13 13:35:04
LoZA稀疏注意力机制
美团龙猫LongCat
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
让大模型学会“高维找茬”,中国联通新研究解决长文本图像检索痛点|AAAI 2026 Oral
正文:2025年12月,中国联通数据科学与人工智能研究院在AAAI 2026 (Oral)发表新研究HiMo-CLIP,突破长文本图像检索难题。该模型通过建模“语义层级”与“语义单调性”,自动捕捉语境中的“语义差异点”,显著提升长文本和组合性文本的检索精度,同时兼顾短文本性能。HiMo-CLIP采用层级分解模块(HiDe)和单调性感知对比损失(MoLo),动态提取关键特征并优化图文对齐机制。实验显示,仅用1M训练数据,HiMo-CLIP性能超越使用100M甚至10B数据的现有方法,并在自建数据集HiMo-Docci上取得SOTA结果。
Nebula
12-01 17:18:28
HiMo-CLIP
语义层级
长文本图像检索
分享至
打开微信扫一扫
内容投诉
生成图片
提速 128 倍:苹果发布 FS-DFM 模型,AI 长文写作不再等待
10月14日,苹果公司联合俄亥俄州立大学发布新型语言模型FS-DFM(Few-Step Discrete Flow-Matching),专攻长文本生成效率瓶颈。该模型仅需8轮迭代即可媲美传统扩散模型上千轮的生成质量,速度提升最高达128倍。作为扩散模型变体,FS-DFM通过三步法优化:灵活适应迭代次数、引入“教师”模型引导更新、改进迭代机制以减少步骤。测试显示,其参数量为1.7亿至17亿的变体在困惑度和熵指标上优于参数量更大的Dream和LLaDA模型,生成文本更流畅且稳定。这一突破将显著提升AI长文写作效率。
蝶舞CyberSwirl
10-14 14:18:04
FS-DFM
苹果
长文本生成
分享至
打开微信扫一扫
内容投诉
生成图片
字节跳动开源长文本处理模型Seed-OSS-36B
8月21日,字节跳动Seed团队宣布开源Seed-OSS-36B系列大模型。该模型专为长上下文、推理、Agent和通用场景设计,最大上下文长度可达512k tokens,显著提升了处理长文本的能力。这一开源项目为开发者提供了更强大的工具,适用于多种复杂应用场景。
月光编码师
08-21 14:39:00
字节跳动
开源模型
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek下一代技术提前曝光
在2025年7月31日的ACL 2025颁奖典礼上,DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力(NSA)机制通过算法与硬件协同优化,将长文本处理速度提升11倍,且性能超越传统全注意力模型。一作袁境阳透露,该技术可扩展上下文至1百万tokens,可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示,NSA在多项基准测试中表现优异,尤其在复杂推理和长文本任务中显著领先。此外,会议还评选出其他三篇*论文,分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论,为AI领域带来新洞见。
虚拟微光
07-31 09:02:46
DeepSeek-V4
原生稀疏注意力
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问Qwen3-30B-A3B模型推出新版本
7月30日,阿里通义千问宣布推出Qwen3-30B-A3B模型的新版本:Qwen3-30B-A3B-Instruct-2507。该模型为非思考模式(non-thinking mode),长文本理解能力提升至256K,仅激活3B参数即可达到与Gemini 2.5-Flash(non-thinking)和GPT-4o等闭源模型相媲美的性能。这一更新显著优化了模型效率与表现,为开发者和用户提供了更强大的工具支持。
Oasis
07-30 07:42:20
Qwen3-30B-A3B
长文本理解
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问宣布更新旗舰版Qwen3模型
7月22日,阿里通义千问宣布更新旗舰版Qwen3模型,推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K,并优化非思考模式(Non-thinking)性能。新版模型已在魔搭社区和HuggingFace平台开源更新,为开发者提供更强大的技术支持与应用可能性。
跨界思维
07-22 07:29:25
Qwen3模型
长文本
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
标题:1万tokens成大模型长文本“智商”分水岭 正文: 当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5...
灵感Phoenix
07-17 15:23:24
大模型
性能下降
长文本
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序