1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

6月16日消息,哈佛大学法学院图书馆在微软与OpenAI支持下,开源首个AI训练数据集“Institutional Books 1.0”。该数据集收录了哈佛馆藏的98.3万本书籍,涵盖245种语言、2420亿个Token,40%为英语书籍,主要集中于19至20世纪,分为20个主题。每本书提供完整元数据,包括作者、出版年份、语言及来源等信息。未来,哈佛大学计划扩展数据内容,已与波士顿公共图书馆合作,将历史报纸数字化加入数据集。此外,他们还将开发AI工具,提升馆藏整理效率并推动负责任的数据使用规范。

原文链接
本文链接:https://kx.umi6.com/article/20290.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
2025-06-16 23:15:51
哈佛大学、谷歌发布 100 万本公共领域书籍,为 AI 训练提供合法数据
2024-12-13 09:18:29
微软CEO:AI时代的核心不是“单一模型” 而是“模型编排与算力工厂”
2026-01-21 17:23:41
OpenAI 回应 ChatGPT 出现广告:平台 95% 是免费用户,会坚守一些原则
2026-01-21 13:13:21
智谱 GLM Coding Plan 官宣暂时限售:1 月 23 日开启,每日 10:00 刷新额度
2026-01-21 15:16:40
融捷股份等成立新公司 含多项AI业务
2026-01-22 15:00:25
金山云星流全面升级,以智算穿越云上AI新周期
2026-01-22 17:01:20
白宫加密与AI顾问 :美国传统银行与加密行业最终将融合为数字资产行业
2026-01-22 16:00:45
贝莱德CEO称人工智能领域不存在泡沫
2026-01-22 23:18:34
2026年OpenAI最看好的3个方向
2026-01-21 17:20:17
农业农村部:将持续推动人工智能等在农业领域应用
2026-01-22 11:51:14
全球消费,进入「中国定义」时间
2026-01-22 13:54:12
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
24小时热文
更多
扫一扫体验小程序