topics:主题建模个人PDF库的工作流程

时间:2024-03-26 22:06:03
【文件属性】:

文件名称:topics:主题建模个人PDF库的工作流程

文件大小:17KB

文件格式:ZIP

更新时间:2024-03-26 22:06:03

pdf topic-modeling mallet pyldavis Python

主题模型PDF库 这是Unix风格的工作流程,用于使用对个人PDF库进行。 它应该可以在macOS和Linux上运行。 如果您发现这些说明中的内容不清楚,或者对您不起作用,或者您有改善此工作流程的建议,请。 先决条件 这些说明假定您基本了解macOS终端或Linux Shell。 根据您拥有的PDF数量,您可能需要一台具有大量RAM和一台具有多核CPU的计算机。 在我具有8核Intel CPU和16GB RAM的2019笔记本电脑上,构建和可视化大约5,000个PDF的50主题模型,总共约2000万个单词,大约需要15分钟。 建立和可视化200个主题的模型大约需要一个小时。 如果您有更多的PDF,或者没有那么多的内核或那么多的RAM,则可能要在按需云计算服务器上运行它-但这超出了这些说明的范围。 无论在何处运行此程序,都将需要以下软件的最新版本: (4.3或更高版本) , ,


【文件预览】:
topics-main
----dumptext.sh(529B)
----doc-topics.py(806B)
----utils.py(2KB)
----make-scripts.sh(255B)
----topdocs.py(5KB)
----requirements.txt(37B)
----topics.py(868B)
----make-indexes.sh(849B)
----build(551B)
----README.md(10KB)
----Makefile(7KB)
----topic-words.py(584B)
----viz.py(3KB)
----.gitignore(187B)
----count-words.py(632B)
----rebuild(31B)
----diagnostics()
--------index.html(536B)
--------code.js(5KB)
--------style.css(749B)

网友评论