2025年12月,华为诺亚方舟实验室推出全新架构Nexus,革新Transformer核心机制。通过高阶注意力机制(Higher-Order Attention Mechanism),Nexus解决了传统Attention在多跳、多点逻辑推理中的不足,显著提升模型复杂推理能力。实验表明,Pythia-70M模型在SciQ数据集准确率提升7%,Qwen2.5系列在数学推理任务中表现更优,且无需增加参数量。Nexus采用递归框架与权重共享策略,实现高效表达密度提升,适用于小模型训练和大模型改造。研究团队计划将Nexus扩展至视觉与多模态任务,进一步优化其性能。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/29751.html
转载请注明文章出处
相关推荐
换一换
华为、浙大发布 DeepSeek-R1-Safe 基础大模型:基于昇腾千卡算力平台,破解 AI“安全与性能”难题
2025-09-21 12:44:49
中国AI高速路,华为给出开源开放方案
2025-09-24 17:46:56
华为发布三款AI SSD系列新品:最高245TB 随机写高达1500K IOPS
2025-08-27 18:07:34
华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
2025-06-10 13:48:32
华为发布 AI 推理创新技术 UCM:可实现高吞吐、低时延推理体验,计划 9 月开源
2025-08-12 16:20:29
华为发布盘古大模型5.5
2025-06-20 17:09:56
华为突破制裁的密码,藏在“384超节点”中
2025-06-17 18:41:35
开源欧拉操作系统装机量年底将超过1600万台
2025-11-14 14:03:13
华为即将发布AI推理领域突破性成果:或能降低对HBM内存依赖
2025-08-10 10:45:55
华为等头部厂商加速布局 数据库产业迎来AI革命
2025-06-25 20:51:14
以软件补硬件:华为定档 11 月 21 日发布并开源创新 AI 容器技术 Flex:ai
2025-11-19 00:47:08
华为 Atlas 950 SuperCluster 50 万卡超集群 2026 年 Q4 上市
2025-09-18 13:53:18
余承东亲自招人!华为招募全球顶尖AI人才:提供业内有竞争力的薪酬
2025-10-21 07:18:58
604 文章
363488 浏览
24小时热文
更多
-
2025-12-07 10:27:01 -
2025-12-07 10:25:53 -
2025-12-07 10:24:46