6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
原文链接
本文链接:https://kx.umi6.com/article/20290.html
转载请注明文章出处
相关推荐
.png)
换一换
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
2025-06-16 23:15:51
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
2024-12-13 09:18:29
ChatGPT新功能,又干掉一批创业项目
2025-09-05 13:21:19
月之暗面 Kimi K2 宣布更新:上下文长度扩展至 256K,带来更快的 API
2025-09-05 12:17:23
蚂蚁国际推出 AI 智能体支付解决方案,可识别用户支付意图、全流程追溯询证
2025-09-05 15:20:28
英伟达砸15亿美元 从Lambda租用搭载自家芯片的GPU服务器
2025-09-05 15:26:12
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
国家标准委:将围绕人工智能、物联网等领域制修订国家标准4000余项
2025-09-04 17:05:10
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
美国AI巨头Anthropic全球封杀中国控股公司!无论何地一律禁用Claude等
2025-09-05 18:23:30
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
实测美团 LongCat:快到极致,但是别说追平 DeepSeek
2025-09-05 15:22:48
马斯克,有望成万亿美元巨富
2025-09-05 22:27:21
510 文章
172248 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08