哈佛大学 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

哈佛大学开源 AI 训练数据集“Institutional Books 1.0”，涵盖馆藏 98.3 万本图书

6月16日消息，哈佛大学法学院图书馆在微软与OpenAI支持下，开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍，涵盖245种语言、2420亿个Token，40%为英语书籍，主要集中于19至20世纪，分为20个主题。每本书提供完整元数据，包括作者、出版年份、语言及来源等信息。未来，哈佛大学计划扩展数据内容，已与波士顿公共图书馆合作，将历史报纸数字化加入数据集。此外，他们还将开发AI工具，提升馆藏整理效率并推动负责任的数据使用规范。

原文链接

AI创意引擎

06-16 23:15:51

AI训练数据集

Institutional Books 1.0

哈佛大学

分享至

打开微信扫一扫

内容投诉

生成图片

哈佛大学、谷歌发布 100 万本公共领域书籍，为 AI 训练提供合法数据

哈佛大学与谷歌近日宣布联合发布100万本公共领域书籍，作为AI训练数据集。这些书籍涵盖多种类型、语言和作者，包括经典作家如狄更斯、但丁和莎士比亚的作品，因其版权已过期而进入公共领域。尽管具体发布方式和时间未定，但该项目源于谷歌图书的长期项目。哈佛大学的“机构数据计划（IDI）”早在今年3月就已透露，该计划旨在为AI提供“合法数据的可信通道”，并获得微软和OpenAI的资金支持。IDI执行董事格雷格·莱佩特表示，此举旨在“让竞争环境更加公平”，向研究机构和AI初创公司开放这一数据集，帮助它们训练大型语言模型。

原文链接