综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
美团龙猫LongCat系列推出全新稀疏注意力机制LoZA(LongCat ZigZag Attention),显著提升长文本处理能力。新技术将上下文窗口扩展至1M,解码速度比之前快10倍,且在256K文本预加载时提速超50%。
全注意力机制因平方级计算复杂度(O(L²))难以高效处理长文本。LoZA...
原文链接
2025年12月,华为诺亚方舟实验室推出全新架构Nexus,革新Transformer核心机制。通过高阶注意力机制(Higher-Order Attention Mechanism),Nexus解决了传统Attention在多跳、多点逻辑推理中的不足,显著提升模型复杂推理能力。实验表明,Pythia-70M模型在SciQ数据集准确率提升7%,Qwen2.5系列在数学推理任务中表现更优,且无需增加参数量。Nexus采用递归框架与权重共享策略,实现高效表达密度提升,适用于小模型训练和大模型改造。研究团队计划将Nexus扩展至视觉与多模态任务,进一步优化其性能。论文已发布于arXiv。
原文链接
12月1日,DeepSeek发布两款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。前者性能与GPT-5相当,后者更在多项基准测试中追平闭源模型天花板Gemini,并在IMO 2025、CMO 2025等竞赛中斩获金牌。此次更新通过稀疏注意力(DSA)优化长文本处理能力,显著降低计算成本,同时强化后训练阶段投入超10%总算力提升模型表现。此外,DeepSeek优化了工具调用逻辑,改进Agent能力,并推出支持深度思考的特殊版本Speciale。尽管其Token消耗量较高,但价格仅为Gemini的1/20,性价比突出。DeepSeek持续以算法创新缩小开源与闭源模型差距,展现技术巧思。
原文链接
11月28日,阿里通义千问团队在人工智能顶级会议NeurIPS 2025上荣获最佳论文奖,成为唯一获此殊荣的中国团队。其研究首次揭秘了注意力门控机制对大模型性能和训练的影响,突破了当前大模型训练瓶颈,推动AI技术发展。本次会议共接收全球2万多篇投稿中的约25%,仅4篇获最佳论文奖,入选概率不及万分之二。研究通过大规模实验清晰揭示门控注意力的作用原理,并展示其优化方案,在引入1%额外参数的情况下,可显著降低困惑度并提升基准评测表现。该成果已应用于Qwen3-Next模型,提升性能与鲁棒性,相关技术与模型均已开源。目前,阿里千问已开源300多款模型,全球下载量超7亿次,衍生模型达18万个,位居全球第一。
原文链接
2025年11月26日,NeurIPS 2025揭晓最佳论文奖和时间检验奖。阿里Qwen团队的门控注意力研究获最佳论文奖,聚焦大语言模型性能提升;何恺明团队2015年提出的Faster R-CNN获时间检验奖,突破目标检测速度瓶颈。本届共4篇最佳论文,3篇为华人一作,涵盖大模型多样性、强化学习深度扩展及扩散模型泛化机制等前沿领域。此外,Best Paper Runner-up有3篇,涉及在线学习理论与神经缩放定律等方向。Faster R-CNN通过区域提议网络(RPN)实现高效检测,在多项竞赛中表现优异,其创新设计影响深远。
原文链接
2025年6月数据显示,微博月活约6亿,日活2.6亿,但用户注意力逐渐被抖音、快手等短视频平台分流。为应对挑战,微博于今年4月推出AI智搜功能,旨在提升信息获取效率和用户粘性。然而,智搜虽能快速梳理热点事件,却被批缺乏‘烟火气’,未能显著增强吸引力。微博的分发逻辑仍以热点为中心,相较抖音、快手的‘兴趣+算法’模式,效率较低。此外,微博内容生态正从聚焦‘人’转向聚焦‘事’,但深度优质内容生产不足,导致广告主更青睐抖音、小红书等平台。为重塑生态,微博近期调整流量分配策略,降低热点权重,扶持中腰部及长尾博主,并优化视频分发机制。AI智搜作为变革第一步,能否助力微博完成自我革命,仍有待观察。
原文链接
2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
原文链接
2025年9月30日,DeepSeek发布最新模型DeepSeek-V3.2-Exp,引入全新稀疏注意力机制DeepSeek Sparse Attention(DSA),显著提升长文本处理效率与推理性能,同时开源TileLang和CUDA双版本GPU算子,便于社区研究与迭代。官方App、网页端、小程序均已同步更新,并推出API 5折起优惠活动。此外,DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平,但在处理128K长上下文时成本更低。同日,智谱GLM-4.6也被曝光正在开发中,其上一代旗舰GLM-4.5已标注为旧版。国庆前夕,AI领域竞争愈发激烈。
原文链接
2025年9月29日,DeepSeek正式发布并开源实验性版本V3.2-Exp,引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序,API价格大幅降低,开发者调用成本减少超50%。同时,DeepSeek开源TileLang与CUDA双版本GPU算子,建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发,显著减少代码量且性能持平。此外,阿里云发布七款大模型产品,包括Qwen3-Max;智谱GLM-4.6即将发布;月之暗面Kimi推出Agent模式“OK Computer”灰度测试,强化智能体能力。
原文链接
2025年9月29日,DeepSeek正式发布实验性版本V3.2-Exp,并开源。该版本引入稀疏注意力机制,优化长文本训练与推理效率,同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调,输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示,新模型在基准测试中表现与前代相当。此外,TileLang编程语言由北大团队开发,可大幅提升开发效率。同日,阿里云发布Qwen3-Max等七款大模型产品,智谱GLM-4.6即将上线,月之暗面Kimi推出Agent模式“OK Computer”灰度测试。
原文链接
加载更多
暂无内容