gutenbergReverseIndex:读取大量的Gutenberg Project文本文件

时间:2024-03-06 20:42:57
【文件属性】:

文件名称:gutenbergReverseIndex:读取大量的Gutenberg Project文本文件

文件大小:15MB

文件格式:ZIP

更新时间:2024-03-06 20:42:57

Python

Indice Reverso-古腾堡的历史 jet虫 请按照以下格式进行分类: 格式: (帕拉夫拉(Palavra,idPalavra)) 关键的价格逆转是关键的,但存在的价值却是存在的。 格式:(palavraId,[docId1,docId2,docIdN]) 使用环境 在Hortonworks SandBox 2.6.5中,可以使用它。 可以使用Oracle Virtual Box在集群中进行服务,可以用于进行分类处理,可以在后部部署数个集群,并且可以并行处理。 ( ) 凡尔赛 Python 2.7.5 HDFS 2.7.3 火花2.3.0 HDP 2.6.5 脚步 克隆项目 Carregar arquivos没有HDFS Gerar dicionario de Palavras 危地In反面 无人驾驶飞机Arquivos Gerados no HDFS 1. Git存


【文件预览】:
gutenbergReverseIndex-master
----maria_dev@localhost(2KB)
----__init__.py(0B)
----reverse_index_builder.py(6KB)
----dataset()
--------25(44KB)
--------43(644KB)
--------26(648KB)
--------16(634KB)
--------5(165KB)
--------35(291KB)
--------1(1.66MB)
--------29(65KB)
--------27(143KB)
--------14(299KB)
--------8(392KB)
--------40(240KB)
--------7(290KB)
--------4(906KB)
--------23(854KB)
--------11(1.04MB)
--------21(845KB)
--------41(559KB)
--------36(285KB)
--------33(464KB)
--------31(555KB)
--------2(1.62MB)
--------32(572KB)
--------0(4.31MB)
--------6(506KB)
--------39(134KB)
--------44(869KB)
--------10(127KB)
--------12(1.59MB)
--------24(320KB)
--------20(278KB)
--------3(1.65MB)
--------28(125KB)
--------19(1015KB)
--------30(526KB)
--------38(99KB)
--------34(433KB)
--------15(896KB)
--------13(226KB)
--------22(512KB)
--------42(244KB)
--------37(88KB)
--------17(433KB)
--------9(1.06MB)
--------18(1.78MB)
----README.md(3KB)
----outputs()
--------words_dictionary.txt(4.55MB)
--------word_reverse_idx.txt(4.26MB)
----.gitignore(12B)
----dictionary_builder.py(3KB)

网友评论