文件名称:gutenberg:使用Mallet进行Gutenberg项目的刮板,解析器和LDA分析
文件大小:257KB
文件格式:ZIP
更新时间:2024-05-24 11:23:23
JavaScript
主意 解析元数据和全文-图书档案。 通过许可协议或年龄超过80岁或作者死亡的事实,这些书可公开获得。 在解析的数据上实现内存中搜索,并使用潜在狄利克雷分配(Latent Dirichlet Allocation)分析文本,以发现书籍中的主题。 数据集 在我们的作业中,我们使用了来自不同来源的三个数据集。 -这是由142位作者撰写的3,036本英语书籍的集合。 该集合是古腾堡计划语料库的一小部分,我们已在该语料库上执行了作业的实际实现。 -汇编了将近30,000种书籍,其中包括epub,html或txt等所有文件格式。 -通过抓取实时网站,我们将能够解析所有必要的元数据和原始图书的内容。 不幸的是,古腾堡对此方法并不满意,我们将不得不Swift限制下载速度。 在此分配中,我们没有使用来自该来源的数据,但是我们已经完全实现了刮板/解析器,可以将其设置为计划的CRON作业,以便在更长的时
【文件预览】:
gutenberg-master
----.gitignore(83B)
----parser.rb(919B)
----README.md(11KB)
----views()
--------_layouts()
--------index.erb(12KB)
--------lda.erb(491B)
--------_partials()
--------search.erb(762B)
----public()
--------css()
--------fonts()
--------sass()
--------js()
----Gemfile(244B)
----.ruby-version(5B)
----lda()
--------mallet.sh(467B)
--------extra_stopwords.txt(31B)
--------stopwords_en.txt(4KB)
--------topic.rb(265B)
--------topics.txt(1KB)
----Gemfile.lock(2KB)
----mappings()
--------book.json(194B)
----scraper()
--------parser.rb(1KB)
--------extractor.rb(1KB)
--------persistor.rb(412B)
--------cleaner.rb(3KB)
----sample_data()
--------online()
--------offline()
----app.rb(2KB)
----persistor.rb(159B)
----cleaner.rb(218B)
----config.ru(36B)
----elasticsearcher.rb(132B)
----book.rb(2KB)