1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OpenAI加码写作赛道?阿里推出通用写作能力基准

全面评估大模型生成式写作能力的基准来了!近期,OpenAI CEO奥特曼透露他们已训练出一款在创作领域表现卓越的新模型。与此同时,Deepseek-R1的文学创作能力也引发了广泛关注,推动了大模型创作的竞争升级。

然而,一个核心问题亟需解答:何为真正的“高质量写作”?为解决这一问题,阿里研究团队联合中国人民大学和上海交通大学开源了WritingBench——该基准覆盖六大领域、100个细分场景,包含1000+条评测数据,旨在为生成式写作提供全面评估。

团队发现,借助思维链技术和动态评估体系,基于Qwen开发的32B创作模型在创意型任务上的表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench解决了行业两大难题:一是评估范围有限,现有AI写作评估多集中于单一领域和短文本,忽视了商业文书、法律文书及营销类写作等领域;二是传统评估方法难以适应不同写作意图,与人类判断一致性不足65%。

为构建WritingBench,团队从学术、金融、政治、文学、教育、宣传六大场景出发,细化为100个子类,并采用四阶段人机协同构建评测集。最终,这套基准不仅领域广泛,还支持“风格”、“格式”、“长度”维度的评测。

此外,WritingBench引入动态评估体系,基于写作意图自动生成评测指标,实现87%的人类一致性得分。团队还训练了评分模型,能根据不同指标给出1-10分的评分及理由。

实验显示,思维链技术在创意写作中表现优异,尤其在文学与艺术领域,带思维链的模型表现优于不带思维链的模型。然而,深度思考虽提升了分析能力,但也可能导致过度推理和数据编造等问题。

同时,研究发现大模型在长文本生成上仍面临显著瓶颈,尤其当输出长度超过3000 token时,质量明显下降。

目前,该项目已开源,感兴趣的读者可进一步探索。

原文链接
本文链接:https://kx.umi6.com/article/15844.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
美国男子“听信 ChatGPT 谗言”弑母后自杀事件后续:OpenAI 拒交关键聊天记录
2025-12-16 12:37:26
OpenAI 向软银集团旗下数字基础设施公司 SB Energy 投资 5 亿美元
2026-01-10 12:10:02
OpenAI的「广告模式」已初具雏形
2025-12-25 18:56:39
OpenAI:推出用户年龄预测功能 以保护未成年用户
2026-01-21 15:17:45
消息称 OpenAI 要求外包人员上传真实工作成果,律师警告称风险极高
2026-01-12 09:24:27
OpenAI首席传播官将离职
2025-12-16 12:39:41
消息称腾讯大模型团队架构调整:前 OpenAI 研究员姚顺雨任要职,校招最高 2 倍薪资挖 AI 人才
2025-12-17 17:57:42
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
消息称 OpenAI 考虑为 ChatGPT 内部版投放广告,收益存疑
2026-01-07 20:37:09
马斯克向OpenAI和微软索赔最高达1340亿美元
2026-01-18 15:28:06
OpenAI、Anthropic 讨论与生物技术及其他公司的数据交易
2025-12-17 23:08:38
智谱AI,排名「第二」
2025-12-21 12:41:26
24小时热文
更多
扫一扫体验小程序