6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
原文链接
本文链接:https://kx.umi6.com/article/20290.html
转载请注明文章出处
相关推荐
换一换
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
2025-06-16 23:15:51
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
2024-12-13 09:18:29
黄仁勋:AI智能体将彻底改造软件 笨软件即将消失
2026-03-08 14:08:18
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
龙虾上桌!上市公司抢着养 OpenClaw引爆科技圈
2026-03-09 18:01:30
和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了
2026-03-09 16:55:46
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
甲骨文史上最大裁员:AI未取代人力 资金转向芯片、数据中心投资
2026-03-09 18:00:21
“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤
2026-03-09 14:44:41
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
2.2亿人正和AI谈恋爱 学者:AI伴侣对孤独或受伤的人有好处
2026-03-08 21:41:26
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
698 文章
495702 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18