flux-toolchain:URL爬行种子(FLUCS)或FLUX-Toolchain的过滤和语言识别

时间:2024-06-12 13:16:36
【文件属性】:

文件名称:flux-toolchain:URL爬行种子(FLUCS)或FLUX-Toolchain的过滤和语言识别

文件大小:37KB

文件格式:ZIP

更新时间:2024-06-12 13:16:36

Perl

URL爬行种子(FLUCS)或FLUX-Toolchain的过滤和语言识别 FLUX已在生产中使用(请参阅)。 这些脚本已经在UNIX(Debian风格)上进行了测试,只要安装了所需的模块(请参阅 ),它们就可以在其他类似UNIX的系统上运行。 版权所有(C)Adrien Barbaresi,2012-2015年。 安装 Debian / Ubuntu系统的建议(可能对其他Linux发行版有用): 确保已安装以下软件包(Perl模块): libhtml-clean-perl libhtml-strip-perl libstime-piece-perl libtry-tiny-perl libdevel-size-perl 一些脚本可以同时使用默认库(LWP,可能更慢)或 (更快的替代品)。 默认情况下未安装此Perl模块(在CPAN中install Furl )。 脚本检测哪个模块


【文件预览】:
flux-toolchain-master
----date-conv+filter.pl(3KB)
----final-merge.sh(1KB)
----res-redirects_threads.sh(3KB)
----wiki-markers.py(5KB)
----old_check-dubious.sh(921B)
----extract-urls.pl(2KB)
----clean_urls.py(7KB)
----shalla-blacklist.sh(1KB)
----fetch+lang-check.pl(31KB)
----resolve-redirects.pl(5KB)
----test()
--------test_bloom+sql.pl(5KB)
----README.md(6KB)
----advanced-stats.py(2KB)
----lang-stats+selection.py(6KB)
----old_check-dubious.pl(935B)
----langcheck_threads.sh(5KB)
----ISO_639-1_codes(3KB)

网友评论