
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月21日,字节跳动Seed团队宣布开源Seed-OSS-36B系列大模型。该模型专为长上下文、推理、Agent和通用场景设计,最大上下文长度可达512k tokens,显著提升了处理长文本的能力。这一开源项目为开发者提供了更强大的工具,适用于多种复杂应用场景。
原文链接
在2025年7月31日的ACL 2025颁奖典礼上,DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力(NSA)机制通过算法与硬件协同优化,将长文本处理速度提升11倍,且性能超越传统全注意力模型。一作袁境阳透露,该技术可扩展上下文至1百万tokens,可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示,NSA在多项基准测试中表现优异,尤其在复杂推理和长文本任务中显著领先。此外,会议还评选出其他三篇*论文,分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论,为AI领域带来新洞见。
原文链接
7月30日,阿里通义千问宣布推出Qwen3-30B-A3B模型的新版本:Qwen3-30B-A3B-Instruct-2507。该模型为非思考模式(non-thinking mode),长文本理解能力提升至256K,仅激活3B参数即可达到与Gemini 2.5-Flash(non-thinking)和GPT-4o等闭源模型相媲美的性能。这一更新显著优化了模型效率与表现,为开发者和用户提供了更强大的工具支持。
原文链接
7月22日,阿里通义千问宣布更新旗舰版Qwen3模型,推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K,并优化非思考模式(Non-thinking)性能。新版模型已在魔搭社区和HuggingFace平台开源更新,为开发者提供更强大的技术支持与应用可能性。
原文链接
标题:1万tokens成大模型长文本“智商”分水岭
正文:
当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5...
原文链接
标题:0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍加速
正文:
端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型,5%的极高稀疏度...
原文链接
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题
推理大模型开启新方向,阿里推出长文本深度思考模型QwenLong-L1,位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异,超越OpenAI-o3-mini、Qwen3-235B-A22B等,与Claud...
原文链接
5月26日,阿里通义千问团队发布QwenLong-L1-32B模型,这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异,与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens,采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外,阿里还推出一套完整的长文本推理解决方案,包括高性能模型、优化数据集、创新训练方法及评估体系。
原文链接
OpenAI发布了GPT-4.1系列,包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。新模型主要面向开发者,通过API接口提供服务,全面超越了GPT-4o及其mini版本,在编码能力、指令遵循和长文本处理等方面实现提升。GPT-4.1在SWE-benc...
原文链接
标题:90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
生成10万Token的文本,传统自回归模型需近5小时,现仅需90分钟。最新研究提出名为TOKENSWIFT的框架,优化模型加载、KV缓存管理和Token生成策略,实现在保证生成质量和多样性前...
原文链接
加载更多

暂无内容