长文本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

提速 128 倍：苹果发布 FS-DFM 模型，AI 长文写作不再等待

10月14日，苹果公司联合俄亥俄州立大学发布新型语言模型FS-DFM（Few-Step Discrete Flow-Matching），专攻长文本生成效率瓶颈。该模型仅需8轮迭代即可媲美传统扩散模型上千轮的生成质量，速度提升最高达128倍。作为扩散模型变体，FS-DFM通过三步法优化：灵活适应迭代次数、引入“教师”模型引导更新、改进迭代机制以减少步骤。测试显示，其参数量为1.7亿至17亿的变体在困惑度和熵指标上优于参数量更大的Dream和LLaDA模型，生成文本更流畅且稳定。这一突破将显著提升AI长文写作效率。

原文链接

蝶舞CyberSwirl

10-14 14:18:04

FS-DFM

苹果

长文本生成

分享至

打开微信扫一扫

内容投诉

生成图片

字节跳动开源长文本处理模型Seed-OSS-36B

8月21日，字节跳动Seed团队宣布开源Seed-OSS-36B系列大模型。该模型专为长上下文、推理、Agent和通用场景设计，最大上下文长度可达512k tokens，显著提升了处理长文本的能力。这一开源项目为开发者提供了更强大的工具，适用于多种复杂应用场景。

原文链接

月光编码师

08-21 14:39:00

字节跳动

开源模型

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光

在2025年7月31日的ACL 2025颁奖典礼上，DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力（NSA）机制通过算法与硬件协同优化，将长文本处理速度提升11倍，且性能超越传统全注意力模型。一作袁境阳透露，该技术可扩展上下文至1百万tokens，可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示，NSA在多项基准测试中表现优异，尤其在复杂推理和长文本任务中显著领先。此外，会议还评选出其他三篇*论文，分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论，为AI领域带来新洞见。

原文链接

虚拟微光

07-31 09:02:46

DeepSeek-V4

原生稀疏注意力

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问Qwen3-30B-A3B模型推出新版本

7月30日，阿里通义千问宣布推出Qwen3-30B-A3B模型的新版本：Qwen3-30B-A3B-Instruct-2507。该模型为非思考模式（non-thinking mode），长文本理解能力提升至256K，仅激活3B参数即可达到与Gemini 2.5-Flash（non-thinking）和GPT-4o等闭源模型相媲美的性能。这一更新显著优化了模型效率与表现，为开发者和用户提供了更强大的工具支持。

原文链接

Oasis

07-30 07:42:20

Qwen3-30B-A3B

长文本理解

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问宣布更新旗舰版Qwen3模型

7月22日，阿里通义千问宣布更新旗舰版Qwen3模型，推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K，并优化非思考模式（Non-thinking）性能。新版模型已在魔搭社区和HuggingFace平台开源更新，为开发者提供更强大的技术支持与应用可能性。

原文链接

跨界思维

07-22 07:29:25

Qwen3模型

长文本

阿里通义千问

分享至

打开微信扫一扫

内容投诉

生成图片

1万tokens是检验长文本的新基准，超过后18款大模型集体失智

标题：1万tokens成大模型长文本“智商”分水岭正文：当上下文长度扩展至1万tokens，主流大模型的性能集体“失智”，且下降并非均匀，而是在某些节点出现断崖式下跌。例如，Claude Sonnet 4在1000tokens后准确率从90%降至60%，而GPT-4.1和Gemini 2.5...

原文链接

灵感Phoenix

07-17 15:23:24

大模型

性能下降

长文本

分享至

打开微信扫一扫

内容投诉

生成图片

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

标题：0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍加速正文：端侧性价比之王，清华大学和面壁智能团队开源新模型——MiniCPM 4，提供8B、0.5B两种参数规模，仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型，5%的极高稀疏度...

原文链接

神经网络领航员

06-10 16:50:15

MiniCPM4

端侧模型

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题推理大模型开启新方向，阿里推出长文本深度思考模型QwenLong-L1，位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异，超越OpenAI-o3-mini、Qwen3-235B-A22B等，与Claud...

原文链接

Journeyman

05-27 15:55:36

渐进式强化学习

长文本

阿里

分享至

打开微信扫一扫

内容投诉

生成图片

QwenLong-L1-32B 模型登场：阿里通义千问首个强化学习训练的长文本推理 AI 模型

5月26日，阿里通义千问团队发布QwenLong-L1-32B模型，这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异，与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens，采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外，阿里还推出一套完整的长文本推理解决方案，包括高性能模型、优化数据集、创新训练方法及评估体系。

原文链接

月光编码师

05-27 14:51:28

QwenLong-L1-32B

强化学习

长文本推理

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI发布GPT-4.1：开发者“特供”，超越4o，但还没遥遥领先

OpenAI发布了GPT-4.1系列，包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。新模型主要面向开发者，通过API接口提供服务，全面超越了GPT-4o及其mini版本，在编码能力、指令遵循和长文本处理等方面实现提升。GPT-4.1在SWE-benc...

原文链接