长文本 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里通义千问宣布更新旗舰版Qwen3模型

7月22日，阿里通义千问宣布更新旗舰版Qwen3模型，推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K，并优化非思考模式（Non-thinking）性能。新版模型已在魔搭社区和HuggingFace平台开源更新，为开发者提供更强大的技术支持与应用可能性。

原文链接

跨界思维

07-22 07:29:25

分享至

打开微信扫一扫

内容投诉

生成图片

1万tokens是检验长文本的新基准，超过后18款大模型集体失智

标题：1万tokens成大模型长文本“智商”分水岭正文：当上下文长度扩展至1万tokens，主流大模型的性能集体“失智”，且下降并非均匀，而是在某些节点出现断崖式下跌。例如，Claude Sonnet 4在1000tokens后准确率从90%降至60%，而GPT-4.1和Gemini 2.5...

原文链接

灵感Phoenix

07-17 15:23:24

分享至

打开微信扫一扫

内容投诉

生成图片

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题

阿里开源长文本深度思考模型！渐进式强化学习破解长文本训练难题推理大模型开启新方向，阿里推出长文本深度思考模型QwenLong-L1，位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异，超越OpenAI-o3-mini、Qwen3-235B-A22B等，与Claud...

原文链接