综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月22日,阿里通义千问宣布更新旗舰版Qwen3模型,推出新版本Qwen3-235B-A22B-Instruct-2507-FP8。此次更新显著提升长文本处理能力至256K,并优化非思考模式(Non-thinking)性能。新版模型已在魔搭社区和HuggingFace平台开源更新,为开发者提供更强大的技术支持与应用可能性。
原文链接
标题:1万tokens成大模型长文本“智商”分水岭
正文:
当上下文长度扩展至1万tokens,主流大模型的性能集体“失智”,且下降并非均匀,而是在某些节点出现断崖式下跌。例如,Claude Sonnet 4在1000tokens后准确率从90%降至60%,而GPT-4.1和Gemini 2.5...
原文链接
阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题
推理大模型开启新方向,阿里推出长文本深度思考模型QwenLong-L1,位列HuggingFace今日热门论文第二。其32B参数版本在多项测试中表现优异,超越OpenAI-o3-mini、Qwen3-235B-A22B等,与Claud...
原文链接
阿里云通义开源了Qwen2.5-1M模型,支持100万Tokens上下文,推出7B和14B两种尺寸。该模型在处理百万级别长文本输入时,通过开源推理框架实现了近7倍的提速。100万Tokens相当于10本长篇小说、150小时演讲稿或3万行代码。(《科创板日报》27日讯)
原文链接
加载更多
暂无内容