1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OpenAI加码写作赛道?阿里推出通用写作能力基准

全面评估大模型生成式写作能力的基准来了!近期,OpenAI CEO奥特曼透露他们已训练出一款在创作领域表现卓越的新模型。与此同时,Deepseek-R1的文学创作能力也引发了广泛关注,推动了大模型创作的竞争升级。

然而,一个核心问题亟需解答:何为真正的“高质量写作”?为解决这一问题,阿里研究团队联合中国人民大学和上海交通大学开源了WritingBench——该基准覆盖六大领域、100个细分场景,包含1000+条评测数据,旨在为生成式写作提供全面评估。

团队发现,借助思维链技术和动态评估体系,基于Qwen开发的32B创作模型在创意型任务上的表现接近顶尖模型R1,为高效能创作开辟了新路径。

WritingBench解决了行业两大难题:一是评估范围有限,现有AI写作评估多集中于单一领域和短文本,忽视了商业文书、法律文书及营销类写作等领域;二是传统评估方法难以适应不同写作意图,与人类判断一致性不足65%。

为构建WritingBench,团队从学术、金融、政治、文学、教育、宣传六大场景出发,细化为100个子类,并采用四阶段人机协同构建评测集。最终,这套基准不仅领域广泛,还支持“风格”、“格式”、“长度”维度的评测。

此外,WritingBench引入动态评估体系,基于写作意图自动生成评测指标,实现87%的人类一致性得分。团队还训练了评分模型,能根据不同指标给出1-10分的评分及理由。

实验显示,思维链技术在创意写作中表现优异,尤其在文学与艺术领域,带思维链的模型表现优于不带思维链的模型。然而,深度思考虽提升了分析能力,但也可能导致过度推理和数据编造等问题。

同时,研究发现大模型在长文本生成上仍面临显著瓶颈,尤其当输出长度超过3000 token时,质量明显下降。

目前,该项目已开源,感兴趣的读者可进一步探索。

原文链接
本文链接:https://kx.umi6.com/article/15844.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 奥尔特曼拟用 Sora“变现”,借助 AI 生成视频来盈利
2025-10-04 11:59:56
OpenAI做电商,国内谁会跟进?
2025-10-16 16:58:57
不思进取的ChatGPT终于躺平了
2025-10-09 09:15:29
OpenAI 自研 AI 浏览器?奥尔特曼官宣凌晨 1 点直播,透露将有令人兴奋的新产品
2025-10-22 00:33:28
GPU警钟敲响,AI过热了?
2025-10-09 09:17:25
OpenAI拟在加拿大布局人工智能数据中心产能
2025-10-09 09:23:39
OpenAI设立秘密项目 训练AI接手初级银行家的繁琐工作
2025-10-21 21:32:06
黄仁勋回应AMD「送股」OpenAI
2025-10-11 09:32:20
OpenAI 放宽 ChatGPT 成人内容引争议,奥尔特曼回应称“我们不是世界道德警察”
2025-10-16 10:51:00
OpenAI奥特曼认错:我天生不适合管理公司
2025-10-11 09:18:56
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
OpenAI推出小型语音模型GPT-5 Pro
2025-10-07 03:44:27
OpenAI“解禁”成人内容,是福是祸?
2025-10-16 14:58:22
24小时热文
更多
扫一扫体验小程序