文件名称:Hathitrust-Bookworm:有关公共领域Hathitrust的全文书虫工作
文件大小:38KB
文件格式:ZIP
更新时间:2024-05-30 13:07:39
JupyterNotebook
Hathitrust书呆子
使用HathiTrust研究中心的提取特征数据集,HTRC Metadata API和设置Hathitrust全文Bookworm的。
该存储库仍在开发中并有文档记录,以帮助建立它,请联系 。
过程
Bookworm需要以下信息进行索引:
jsoncatalog.txt :集合中每个文档的元数据记录,都为JSON。
fielddescriptions :JSON元数据的架构:为什么要使用各种字段,等等。
wordlist :要索引的带编号的TSV令牌,包括总数。 (格式为num_id
【文件预览】:
Hathitrust-Bookworm-master
----.gitmodules(339B)
----data_processing()
--------1-1_BookwormWordlist.ipynb(39KB)
--------1-3_CreateWordlist.ipynb(92KB)
--------1-2_BookwormFoldWordList.ipynb(60KB)
--------README.md(3KB)
----scripts()
--------htrc_featurecount_stream.py(2KB)
----BookwormDB()
----HTRC-BookwormGUI()
----README.md(3KB)
----Makefile(2KB)
----HTMetadata-Bookworm()
----bw-staging()
--------secrets-example.env(24B)
--------Dockerfile(477B)
--------docker-compose-example.yml(355B)
--------README(3KB)