1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
标题:1万tokens成大模型长文本“智商”分水岭 正文: 当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5...
灵感Phoenix
07-17 15:23:24
大模型
性能下降
长文本
分享至
打开微信扫一扫
内容投诉
生成图片
0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍常规加速丨清华&面壁开源
标题:0.5B以小搏大拿下端侧模型新SOTA:4090可跑,长文本处理5倍加速 正文: 端侧性价比之王,清华大学和面壁智能团队开源新模型——MiniCPM 4,提供8B、0.5B两种参数规模,仅用同级别模型22%的训练开销便达最优性能。MiniCPM4-8B是首个开源的原生稀疏模型,5%的极高稀疏度...
神经网络领航员
06-10 16:50:15
MiniCPM4
端侧模型
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题 推理大模型开启新方向,阿里推出长文本深度思考模型QwenLong-L1,位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异,超越OpenAI-o3-mini、Qwen3-235B-A22B等,与Claud...
Journeyman
05-27 15:55:36
渐进式强化学习
长文本
阿里
分享至
打开微信扫一扫
内容投诉
生成图片
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
5月26日,阿里通义千问团队发布QwenLong-L1-32B模型,这是首个通过强化学习训练的长文本推理AI模型。该模型在七个DocQA基准测试中表现优异,与顶级模型相当。QwenLong-L1-32B的最大特点是上下文窗口支持高达131072个tokens,采用GRPO和DAPO算法及混合奖励函数提升推理能力。团队通过监督微调和课程引导的分阶段强化学习技术优化模型。此外,阿里还推出一套完整的长文本推理解决方案,包括高性能模型、优化数据集、创新训练方法及评估体系。
月光编码师
05-27 14:51:28
QwenLong-L1-32B
强化学习
长文本推理
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI发布GPT-4.1:开发者“特供”,超越4o,但还没遥遥领先
OpenAI发布了GPT-4.1系列,包括旗舰版GPT-4.1、高性价比的GPT-4.1 mini和超轻量的GPT-4.1 nano。新模型主要面向开发者,通过API接口提供服务,全面超越了GPT-4o及其mini版本,在编码能力、指令遵循和长文本处理等方面实现提升。GPT-4.1在SWE-benc...
智慧轨迹
04-15 15:34:47
GPT-4.1
开发者
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!
标题:90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ! 生成10万Token的文本,传统自回归模型需近5小时,现仅需90分钟。最新研究提出名为TOKENSWIFT的框架,优化模型加载、KV缓存管理和Token生成策略,实现在保证生成质量和多样性前...
AI创意引擎
03-12 13:24:55
TOKENSWIFT框架
无损加速
超长文本生成
分享至
打开微信扫一扫
内容投诉
生成图片
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini
Qwen开源首个长文本新模型,百万Tokens处理性能超GPT-4o-mini 谈到大模型的“国货之光”,阿里云Qwen首次将开源模型的上下文扩展至1M长度。新模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M,已实现稳定超越GPT-4o-mini,...
数码游侠
01-27 14:30:40
Qwen2.5-1M
稀疏注意力机制
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云通义开源首个长文本新模型Qwen2.5-1M
阿里云通义开源了Qwen2.5-1M模型,支持100万Tokens上下文,推出7B和14B两种尺寸。该模型在处理百万级别长文本输入时,通过开源推理框架实现了近7倍的提速。100万Tokens相当于10本长篇小说、150小时演讲稿或3万行代码。(《科创板日报》27日讯)
WisdomTrail
01-27 11:31:21
Qwen2.5-1M
长文本
阿里云
分享至
打开微信扫一扫
内容投诉
生成图片
豆包大模型发布各领域技术进展,首次披露 300 万长文本能力
字节跳动旗下豆包大模型于12月30日公布2024年全领域技术进展。自5月15日首次亮相以来,豆包模型在通用语言、视频生成、语音对话、视觉理解等方面已进入国际第一梯队。最新版Doubao-pro-1215综合能力较5月提升32%,全面对齐GPT-4,且在部分复杂场景任务中表现更优,推理服务价格仅为GPT-4的八分之一。此外,豆包首次披露了300万字窗口的长文本处理能力,每百万tokens处理延迟仅15秒,显著提升了利用海量外部知识的能力。
代码编织者Nexus
12-30 22:29:06
技术进展
豆包大模型
长文本能力
分享至
打开微信扫一扫
内容投诉
生成图片
LG 发布 EXAONE 3.5 开源 AI 模型:长文本处理利器、独特技术有效降低“幻觉”
LG人工智能研究院于12月9日发布了EXAONE 3.5开源AI模型,该模型包括24亿、78亿和320亿参数三种版本。EXAONE 3.5在20项基准测试中表现出色,尤其在长文本处理和准确性方面优于其他模型。其独特的检索增强生成技术和多步推理能力有效减少了“幻觉”现象。同时,LG还推出了企业级AI智能体服务ChatEXAONE,具备加密和隐私保护功能。未来,LG计划在2025年上半年扩展EXAONE 3.5的上下文窗口至128000tokens,并发布大型动作模型(LAM),以进一步提升AI能力。
智能视野
12-11 09:21:31
AI模型
幻觉
长文本处理
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序