1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
DeepSeek新模型上线
2025年9月30日,DeepSeek发布最新模型DeepSeek-V3.2-Exp,引入全新稀疏注意力机制DeepSeek Sparse Attention(DSA),显著提升长文本处理效率与推理性能,同时开源TileLang和CUDA双版本GPU算子,便于社区研究与迭代。官方App、网页端、小程序均已同步更新,并推出API 5折起优惠活动。此外,DeepSeek-V3.2-Exp在多项公开测评中表现与前代V3.1-Terminus持平,但在处理128K长上下文时成本更低。同日,智谱GLM-4.6也被曝光正在开发中,其上一代旗舰GLM-4.5已标注为旧版。国庆前夕,AI领域竞争愈发激烈。
AI幻想空间站
09-30 11:25:43
DeepSeek
TileLang
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek新发布
2025年9月29日,DeepSeek正式发布并开源实验性版本V3.2-Exp,引入稀疏注意力机制优化长文本处理效率。中信建投分析师评价其易用性大幅提升。此次更新同步上线官方App、网页端和小程序,API价格大幅降低,开发者调用成本减少超50%。同时,DeepSeek开源TileLang与CUDA双版本GPU算子,建议社区使用TileLang版本以加速研究迭代。TileLang由北大团队开发,显著减少代码量且性能持平。此外,阿里云发布七款大模型产品,包括Qwen3-Max;智谱GLM-4.6即将发布;月之暗面Kimi推出Agent模式“OK Computer”灰度测试,强化智能体能力。
AI创想团
09-29 22:15:21
API降价
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3.2-Exp官宣发布,API价格下调超50%
2025年9月29日,DeepSeek正式发布实验性版本V3.2-Exp,并开源。该版本引入稀疏注意力机制,优化长文本训练与推理效率,同时支持TileLang和CUDA两种GPU算子版本。API价格大幅下调,输入和输出成本降低超50%。中信建投分析师评价其易用性显著提升。官方表示,新模型在基准测试中表现与前代相当。此外,TileLang编程语言由北大团队开发,可大幅提升开发效率。同日,阿里云发布Qwen3-Max等七款大模型产品,智谱GLM-4.6即将上线,月之暗面Kimi推出Agent模式“OK Computer”灰度测试。
AGI探路者
09-29 20:15:06
API价格
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-V3.2-Exp 模型正式发布并开源,API 大幅降价
9月29日,DeepSeek正式发布实验性模型DeepSeek-V3.2-Exp,并在Huggingface与魔搭平台开源。该版本引入DeepSeek Sparse Attention(DSA)稀疏注意力机制,优化长文本训练和推理效率,同时保持模型输出效果几乎不变。官方将V3.2-Exp与前代V3.1-Terminus的训练设置严格对齐,表现基本持平。本次更新还大幅降低API调用成本,开发者使用费用减少50%以上。目前,官方App、网页端及小程序均已同步更新至新版本。为支持对比测试,V3.1-Terminus的API接口暂时保留。论文及相关资源已公开。
未来编码者
09-29 19:14:08
API降价
DeepSeek-V3.2-Exp
稀疏注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
实测!Qwen下一代基础架构突袭!秒解AIME数学竞赛题,提速10倍+性价比提升10倍
2025年9月,Qwen团队发布下一代模型架构Qwen3-Next,称为Qwen3.5的抢先预览版。新模型引入四大核心改进:混合注意力机制、高稀疏度MoE结构、稳定性优化和多token预测机制,性能显著提升。Qwen3-Next-80B-A3B系列在训练成本仅为Qwen3-32B十分之一的情况下,推理吞吐量提升10倍以上,并在多项基准测试中超越闭源模型Gemini-2.5-Flash-Thinking。实测显示,该模型可秒解AIME数学竞赛题并支持多模态任务。此外,模型已开源,用户可通过魔搭社区、抱抱脸及阿里云API免费体验或调用服务。
跨界思维
09-12 17:15:02
Qwen3-Next
推理效率
混合注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云发布通义 Qwen3-Next 基础模型架构并开源 80B-A3B 系列:改进混合注意力机制、高稀疏度 MoE 结构
9月12日,阿里云通义团队发布下一代基础模型架构Qwen3-Next,并开源80B-A3B系列模型。新架构通过改进混合注意力机制、高稀疏度MoE结构及多token预测机制,显著提升长上下文和大规模参数下的训练与推理效率。Qwen3-Next-80B-A3B模型拥有800亿参数(激活30亿),支持262K上下文,可外推至101万tokens,性能接近或超越前代模型,而训练成本仅为十分之一,推理吞吐提升十倍以上。Instruct版在评测中接近Qwen3-235B,Thinking版在部分任务上超越Gemini-2.5-Flash-Thinking。模型权重已以Apache-2.0许可发布,可通过Hugging Face、Transformers等框架部署,同时上线第三方平台OpenRouter。
Journeyman
09-12 07:06:19
混合注意力机制
通义Qwen3-Next
高稀疏度MoE结构
分享至
打开微信扫一扫
内容投诉
生成图片
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
正文:2025年7月,Meta发布新注意力机制2-Simplicial Transformer,突破传统Transformer性能上限。该架构通过引入三元线性注意力机制,利用OpenAI开源的Triton框架优化计算,显著提升模型在数学、编程和推理任务中的表现。实验表明,在同等参数量下,新架构性能优于传统Transformer,尤其在大规模模型中表现突出,缩放指数更高,适合有限数据场景。研究人员使用Triton实现520TFLOPS运算性能,并结合滑动窗口机制降低计算成本。然而,其高计算复杂度和延迟仍需优化。Meta此番创新引发热议,同时也凸显OpenAI技术的重要性。论文已公开。
AI思维矩阵
07-07 17:34:43
2-Simplicial Transformer
Triton
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
Mamba核心作者新作:专为推理优化的注意力机制 曾推动Transformer革新的Mamba作者之一Tri Dao,发布新研究——提出两种专为推理设计的注意力机制,大幅提升了解码速度和吞吐量,尤其在长上下文推理中表现优异。 这项由普林斯顿大学团队完成的研究包含两大创新: 其一,Grouped-Ti...
幻彩逻辑RainbowLogic
06-01 13:19:53
大语言模型
推理优化
注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
AI怎样模仿人类大脑的注意力机制?
标题:AI如何模仿人类大脑的注意力机制? 正文: 近年来,AI领域中最热门的话题无疑是deepseek(简称DS)。作为中国本土崛起的一匹黑马,DS迅速在全球范围内引发关注,甚至一度搅动美国股市,成为AI领域的重要事件。 DS的成功离不开技术积累。创始人梁文锋坦言,DS站在了巨人的肩膀上。这个巨人可...
幻彩逻辑RainbowLogic
05-17 11:04:36
Transformer
注意力机制
自然语言处理
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek-R1秘籍轻松迁移,只需原始数据0.3% | 邱锡鹏团队联合出品
DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。 MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partia...
智慧棱镜
02-24 16:26:25
DeepSeek-R1
MHA2MLA
多头潜在注意力机制
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序