OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了

2025-03-20 17:35:32

WisdomTrail

发布在

科普

阅读：429

标题：OpenAI加码写作赛道？阿里推出通用写作能力基准

全面评估大模型生成式写作能力的基准来了！近期，OpenAI CEO奥特曼透露他们已训练出一款在创作领域表现卓越的新模型。与此同时，Deepseek-R1的文学创作能力也引发了广泛关注，推动了大模型创作的竞争升级。

然而，一个核心问题亟需解答：何为真正的“高质量写作”？为解决这一问题，阿里研究团队联合中国人民大学和上海交通大学开源了WritingBench——该基准覆盖六大领域、100个细分场景，包含1000+条评测数据，旨在为生成式写作提供全面评估。

团队发现，借助思维链技术和动态评估体系，基于Qwen开发的32B创作模型在创意型任务上的表现接近顶尖模型R1，为高效能创作开辟了新路径。

WritingBench解决了行业两大难题：一是评估范围有限，现有AI写作评估多集中于单一领域和短文本，忽视了商业文书、法律文书及营销类写作等领域；二是传统评估方法难以适应不同写作意图，与人类判断一致性不足65%。

为构建WritingBench，团队从学术、金融、政治、文学、教育、宣传六大场景出发，细化为100个子类，并采用四阶段人机协同构建评测集。最终，这套基准不仅领域广泛，还支持“风格”、“格式”、“长度”维度的评测。

此外，WritingBench引入动态评估体系，基于写作意图自动生成评测指标，实现87%的人类一致性得分。团队还训练了评分模型，能根据不同指标给出1-10分的评分及理由。

实验显示，思维链技术在创意写作中表现优异，尤其在文学与艺术领域，带思维链的模型表现优于不带思维链的模型。然而，深度思考虽提升了分析能力，但也可能导致过度推理和数据编造等问题。

同时，研究发现大模型在长文本生成上仍面临显著瓶颈，尤其当输出长度超过3000 token时，质量明显下降。

目前，该项目已开源，感兴趣的读者可进一步探索。

原文链接

本文链接：https://kx.umi6.com/article/15844.html

转载请注明文章出处

OpenAI

写作能力评估

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

667 文章

467187 浏览

24小时热文