长文本处理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

字节跳动开源长文本处理模型Seed-OSS-36B

8月21日，字节跳动Seed团队宣布开源Seed-OSS-36B系列大模型。该模型专为长上下文、推理、Agent和通用场景设计，最大上下文长度可达512k tokens，显著提升了处理长文本的能力。这一开源项目为开发者提供了更强大的工具，适用于多种复杂应用场景。

原文链接

月光编码师

08-21 14:39:00

字节跳动

开源模型

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek下一代技术提前曝光

在2025年7月31日的ACL 2025颁奖典礼上，DeepSeek与北京大学联合发表的论文荣获*论文奖。其提出的原生稀疏注意力（NSA）机制通过算法与硬件协同优化，将长文本处理速度提升11倍，且性能超越传统全注意力模型。一作袁境阳透露，该技术可扩展上下文至1百万tokens，可能应用于下一代DeepSeek-V4及DeepSeek-R2模型。研究显示，NSA在多项基准测试中表现优异，尤其在复杂推理和长文本任务中显著领先。此外，会议还评选出其他三篇*论文，分别聚焦语言模型对齐弹性、公平性差异感知及大模型采样机制理论，为AI领域带来新洞见。

原文链接

虚拟微光

07-31 09:02:46

DeepSeek-V4

原生稀疏注意力

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍常规加速丨清华&面壁开源

标题：0.5B以小搏大拿下端侧模型新SOTA：4090可跑，长文本处理5倍加速正文：端侧性价比之王，清华大学和面壁智能团队开源新模型——MiniCPM 4，提供8B、0.5B两种参数规模，仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型，5%的极高稀疏度...

原文链接

神经网络领航员

06-10 16:50:15

MiniCPM4

端侧模型

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI发布GPT-4.1：开发者“特供”，超越4o，但还没遥遥领先

OpenAI发布了GPT-4.1系列，包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。新模型主要面向开发者，通过API接口提供服务，全面超越了GPT-4o及其mini版本，在编码能力、指令遵循和长文本处理等方面实现提升。GPT-4.1在SWE-benc...

原文链接

智慧轨迹

04-15 15:34:47

GPT-4.1

开发者

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini 谈到大模型的“国货之光”，阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M，已实现稳定超越GPT-4o-mini，...

原文链接

数码游侠

01-27 14:30:40

Qwen2.5-1M

稀疏注意力机制

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

LG 发布 EXAONE 3.5 开源 AI 模型：长文本处理利器、独特技术有效降低“幻觉”

LG人工智能研究院于12月9日发布了EXAONE 3.5开源AI模型，该模型包括24亿、78亿和320亿参数三种版本。EXAONE 3.5在20项基准测试中表现出色，尤其在长文本处理和准确性方面优于其他模型。其独特的检索增强生成技术和多步推理能力有效减少了“幻觉”现象。同时，LG还推出了企业级AI智能体服务ChatEXAONE，具备加密和隐私保护功能。未来，LG计划在2025年上半年扩展EXAONE 3.5的上下文窗口至128000tokens，并发布大型动作模型（LAM），以进一步提升AI能力。

原文链接

智能视野

12-11 09:21:31

AI模型

幻觉

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义千问发布 Qwen2.5-Turbo 开源 AI 模型：支持 100 万 tokens 上下文，处理时间缩短至 68 秒

11月18日，阿里通义千问发布了Qwen2.5-Turbo开源AI模型，支持高达100万个tokens的上下文长度，处理时间缩短至68秒。相较于先前版本，Qwen2.5-Turbo将上下文长度从12.8万个tokens扩展至100万个tokens，能容纳10部完整小说或150小时的演讲稿。该模型在Passkey检索任务中实现了100%准确率，并在RULER长文本评估中得分93.1，超过GPT-4和GLM4-9B-1M。团队通过引入稀疏注意力机制，大幅提升了处理速度，使得处理100万个tokens的时间从4.9分钟降至68秒，效率提升4.3倍。此外，Qwen2.5-Turbo的处理成本保持在每百万tokens0.3元，处理能力是GPT-4o-mini的3.6倍，展现了其在长上下文处理中的经济性和高效性。尽管如此，团队仍致力于优化模型在真实场景中的表现及降低推理成本。

原文链接

LunarCoder

11-19 14:52:17

Qwen2.5-Turbo

上下文长度

长文本处理

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯发最大开源MoE模型，3890亿参数免费可商用，跑分超Llama3.1

腾讯发布最大开源MoE模型，3890亿参数免费可商用，性能超越Llama 3.1。腾讯推出Hunyuan-Large，该模型拥有3890亿总参数和520亿激活参数，其性能超过了Llama 3.1等开源旗舰模型，并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型，但其...

原文链接