gutenberg:使用Mallet进行Gutenberg项目的刮板，解析器和LDA分析下载

【文件属性】：

文件名称：gutenberg:使用Mallet进行Gutenberg项目的刮板，解析器和LDA分析

文件大小：257KB

文件格式：ZIP

更新时间：2024-05-24 11:23:23

JavaScript

主意解析元数据和全文-图书档案。通过许可协议或年龄超过80岁或作者死亡的事实，这些书可公开获得。在解析的数据上实现内存中搜索，并使用潜在狄利克雷分配（Latent Dirichlet Allocation）分析文本，以发现书籍中的主题。数据集在我们的作业中，我们使用了来自不同来源的三个数据集。 -这是由142位作者撰写的3,036本英语书籍的集合。该集合是古腾堡计划语料库的一小部分，我们已在该语料库上执行了作业的实际实现。 -汇编了将近30,000种书籍，其中包括epub，html或txt等所有文件格式。 -通过抓取实时网站，我们将能够解析所有必要的元数据和原始图书的内容。不幸的是，古腾堡对此方法并不满意，我们将不得不Swift限制下载速度。在此分配中，我们没有使用来自该来源的数据，但是我们已经完全实现了刮板/解析器，可以将其设置为计划的CRON作业，以便在更长的时

立即下载

【文件预览】：
gutenberg-master
----.gitignore(83B)
----parser.rb(919B)
----README.md(11KB)
----views()
--------_layouts()
--------index.erb(12KB)
--------lda.erb(491B)
--------_partials()
--------search.erb(762B)
----public()
--------css()
--------fonts()
--------sass()
--------js()
----Gemfile(244B)
----.ruby-version(5B)
----lda()
--------mallet.sh(467B)
--------extra_stopwords.txt(31B)
--------stopwords_en.txt(4KB)
--------topic.rb(265B)
--------topics.txt(1KB)
----Gemfile.lock(2KB)
----mappings()
--------book.json(194B)
----scraper()
--------parser.rb(1KB)
--------extractor.rb(1KB)
--------persistor.rb(412B)
--------cleaner.rb(3KB)
----sample_data()
--------online()
--------offline()
----app.rb(2KB)
----persistor.rb(159B)
----cleaner.rb(218B)
----config.ru(36B)
----elasticsearcher.rb(132B)
----book.rb(2KB)

秒客网

gutenberg:使用Mallet进行Gutenberg项目的刮板，解析器和LDA分析

网友评论

相关文章