1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OpenAI加码写作赛道?阿里推出通用写作能力基准

全面评估大模型生成式写作能力的基准来了!近期,OpenAI CEO奥特曼透露他们已训练出一款在创作领域表现卓越的新模型。与此同时,Deepseek-R1的文学创作能力也引发了广泛关注,推动了大模型创作的竞争升级。

然而,一个核心问题亟需解答:何为真正的“高质量写作”?为解决这一问题,阿里研究团队联合中国人民大学和上海交通大学开源了WritingBench——该基准覆盖六大领域、100个细分场景,包含1000+条评测数据,旨在为生成式写作提供全面评估。

团队发现,借助思维链技术和动态评估体系,基于Qwen开发的32B创作模型在创意型任务上的表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench解决了行业两大难题:一是评估范围有限,现有AI写作评估多集中于单一领域和短文本,忽视了商业文书、法律文书及营销类写作等领域;二是传统评估方法难以适应不同写作意图,与人类判断一致性不足65%。

为构建WritingBench,团队从学术、金融、政治、文学、教育、宣传六大场景出发,细化为100个子类,并采用四阶段人机协同构建评测集。最终,这套基准不仅领域广泛,还支持“风格”、“格式”、“长度”维度的评测。

此外,WritingBench引入动态评估体系,基于写作意图自动生成评测指标,实现87%的人类一致性得分。团队还训练了评分模型,能根据不同指标给出1-10分的评分及理由。

实验显示,思维链技术在创意写作中表现优异,尤其在文学与艺术领域,带思维链的模型表现优于不带思维链的模型。然而,深度思考虽提升了分析能力,但也可能导致过度推理和数据编造等问题。

同时,研究发现大模型在长文本生成上仍面临显著瓶颈,尤其当输出长度超过3000 token时,质量明显下降。

目前,该项目已开源,感兴趣的读者可进一步探索。

原文链接
本文链接:https://kx.umi6.com/article/15844.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
英伟达据悉接近达成协议在OpenAI最新一轮融资中投资200亿美元
2026-02-04 08:28:18
OpenAI已与广告交易平台进行谈判
2026-03-05 10:05:53
光顾赚钱不搞研究,OpenAI元老级高管现离职潮,Mark Chen紧急回应
2026-02-04 15:48:22
OpenAI前高管坦言公司“掉链子” 让竞争对手谷歌得以翻身
2026-01-24 00:23:19
黄仁勋否认对OpenAI不满 透露将巨额投资
2026-02-01 19:56:16
OpenAI:关于芯片供应 公司已做到“对未来需求心中有数”
2026-02-20 07:10:46
又一个谷歌不作恶式的形象崩塌 OpenAI删除AI安全造福人类承诺
2026-02-14 22:47:09
OpenAI发布Windows版Codex应用
2026-03-05 10:04:49
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI 全面上线“廉价版”ChatGPT Go 订阅方案:每月 8 美元,将包含广告
2026-01-17 08:17:48
AWS与OpenAI联合开发“有状态运行时环境” 预计数月内推出
2026-02-28 14:23:02
24小时热文
更多
扫一扫体验小程序