Hathitrust-Bookworm:有关公共领域Hathitrust的全文书虫工作

时间:2021-05-10 19:20:59
【文件属性】:
文件名称:Hathitrust-Bookworm:有关公共领域Hathitrust的全文书虫工作
文件大小:38KB
文件格式:ZIP
更新时间:2021-05-10 19:20:59
JupyterNotebook Hathitrust书呆子 使用HathiTrust研究中心的提取特征数据集,HTRC Metadata API和设置Hathitrust全文Bookworm的。 该存储库仍在开发中并有文档记录,以帮助建立它,请联系 。 过程 Bookworm需要以下信息进行索引: jsoncatalog.txt :集合中每个文档的元数据记录,都为JSON。 fielddescriptions :JSON元数据的架构:为什么要使用各种字段,等等。 wordlist :要索引的带编号的TSV令牌,包括总数。 (格式为num_idtokencount )。 此列表中未包含的所有内容均未编制索引,并且编号与mysql将使用的内部ID匹配。 raw unigram :每本书的数据,以doc_nametokencount进行组织。 可选:转换后的字母组合列表:通过Bookworm:将
【文件预览】:
Hathitrust-Bookworm-master
----.gitmodules(339B)
----data_processing()
--------1-1_BookwormWordlist.ipynb(39KB)
--------1-3_CreateWordlist.ipynb(92KB)
--------1-2_BookwormFoldWordList.ipynb(60KB)
--------README.md(3KB)
----scripts()
--------htrc_featurecount_stream.py(2KB)
----BookwormDB()
----HTRC-BookwormGUI()
----README.md(3KB)
----Makefile(2KB)
----HTMetadata-Bookworm()
----bw-staging()
--------secrets-example.env(24B)
--------Dockerfile(477B)
--------docker-compose-example.yml(355B)
--------README(3KB)

网友评论