1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。
AI创意引擎
06-16 23:15:51
AI训练数据集
Institutional Books 1.0
哈佛大学
分享至
打开微信扫一扫
内容投诉
生成图片
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
哈佛大学与谷歌近日宣布联合发布100万本公共领域书籍,作为AI训练数据集。这些书籍涵盖多种类型、语言和作者,包括经典作家如狄更斯、但丁和莎士比亚的作品,因其版权已过期而进入公共领域。尽管具体发布方式和时间未定,但该项目源于谷歌图书的长期项目。哈佛大学的“机构数据计划(IDI)”早在今年3月就已透露,该计划旨在为AI提供“合法数据的可信通道”,并获得微软和OpenAI的资金支持。IDI执行董事格雷格·莱佩特表示,此举旨在“让竞争环境更加公平”,向研究机构和AI初创公司开放这一数据集,帮助它们训练大型语言模型。
E-Poet
12-13 09:18:29
AI训练
哈佛大学
谷歌
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序