1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OpenAI加码写作赛道?阿里推出通用写作能力基准

全面评估大模型生成式写作能力的基准来了!近期,OpenAI CEO奥特曼透露他们已训练出一款在创作领域表现卓越的新模型。与此同时,Deepseek-R1的文学创作能力也引发了广泛关注,推动了大模型创作的竞争升级。

然而,一个核心问题亟需解答:何为真正的“高质量写作”?为解决这一问题,阿里研究团队联合中国人民大学和上海交通大学开源了WritingBench——该基准覆盖六大领域、100个细分场景,包含1000+条评测数据,旨在为生成式写作提供全面评估。

团队发现,借助思维链技术和动态评估体系,基于Qwen开发的32B创作模型在创意型任务上的表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench解决了行业两大难题:一是评估范围有限,现有AI写作评估多集中于单一领域和短文本,忽视了商业文书、法律文书及营销类写作等领域;二是传统评估方法难以适应不同写作意图,与人类判断一致性不足65%。

为构建WritingBench,团队从学术、金融、政治、文学、教育、宣传六大场景出发,细化为100个子类,并采用四阶段人机协同构建评测集。最终,这套基准不仅领域广泛,还支持“风格”、“格式”、“长度”维度的评测。

此外,WritingBench引入动态评估体系,基于写作意图自动生成评测指标,实现87%的人类一致性得分。团队还训练了评分模型,能根据不同指标给出1-10分的评分及理由。

实验显示,思维链技术在创意写作中表现优异,尤其在文学与艺术领域,带思维链的模型表现优于不带思维链的模型。然而,深度思考虽提升了分析能力,但也可能导致过度推理和数据编造等问题。

同时,研究发现大模型在长文本生成上仍面临显著瓶颈,尤其当输出长度超过3000 token时,质量明显下降。

目前,该项目已开源,感兴趣的读者可进一步探索。

原文链接
本文链接:https://kx.umi6.com/article/15844.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
刚刚,OpenAI 四位华人AI 大牛集体被挖,清北浙大中科大校友,小扎杀疯了
2025-06-29 11:30:41
微软、OpenAI和Anthropic参与建立美国AI教育培训中心
2025-07-09 10:03:03
OpenAI宫斗加剧,Meta高薪截胡奥特曼
2025-07-06 15:14:05
24小时热文
更多
扫一扫体验小程序