michigan-technic:HathiTrust测试挖掘

时间:2021-05-01 09:29:22
【文件属性】:
文件名称:michigan-technic:HathiTrust测试挖掘
文件大小:20KB
文件格式:ZIP
更新时间:2021-05-01 09:29:22
Python 密歇根技术 HathiTrust文本挖掘很容易! 您需要的只是一个收藏! 在HathiTrust中创建或获取指向公共收藏集的链接。 运行get-ocr.py刮除HathiTrust并在本地计算机上获取OCR。 这需要一段时间。 运行make-dictionaries.py 。 这将获取该集合中每个卷的基本元数据。 运行ocr-total.py 。 这将创建一个文件,以便我们还可以在整个运行中进行操作(而不是一次只运行一个卷)。 从那里,您可以进行一些基本的文本分析: 运行lexical-diversity.py以了解一段时间内的词汇多样性。 运行frequent-word-combinations.py看到每个问题freqent字的组合。 运行word-occurences-in-context.py以查看列表中单词的一致性。 请注意,您需要使用要查找的单词来编辑,大写字母
【文件预览】:
michigan-technic-master
----frequent-word-combinations.py(1KB)
----dispersion-plot.py(1KB)
----get-ocr.py(6KB)
----additional-commands.py(2KB)
----count.py(3KB)
----ocr-total.py(815B)
----LICENSE(18KB)
----README.md(2KB)
----lexical-diversity.py(3KB)
----frequency-distribution.py(2KB)
----word-occurences-in-context.py(1KB)
----make-dictionaries.py(4KB)
----.gitignore(36B)

网友评论