文件名称:corpora-tools:语料库工具
文件大小:92KB
文件格式:ZIP
更新时间:2024-05-04 02:51:29
Python
语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。 前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T
【文件预览】:
corpora-tools-master
----include()
--------LCS.h(243B)
--------Align.h(621B)
--------Tools.h(280B)
----w2vec()
--------dataset.py(14KB)
--------w2vec.py(17KB)
--------model.py(12KB)
----src()
--------LCS.cpp(1KB)
--------augmentInputMatches_cli.cpp(11KB)
--------lcs_cli.cpp(2KB)
--------unfold_cli.cpp(3KB)
--------Align.cpp(6KB)
--------Tools.cpp(2KB)
--------phrases_cli.cpp(4KB)
--------CMakeLists.txt(637B)
----matching()
--------BilUnits.py(6KB)
--------integrateEmbeddingMatches.py(3KB)
--------fuzzyMatching.py(14KB)
--------integrateNgramMatches.py(7KB)
--------integrateFuzzyMatches.py(13KB)
--------ngramMatching.py(8KB)
--------NgramMatch.py(1KB)
----SpacCy()
--------display.py(264B)
--------SpaCy.py(6KB)
----Eval()
--------chrF.py(4KB)
--------multi-bleu.perl(4KB)
--------diff2html.perl(4KB)
--------ali2links_html.perl(2KB)
--------ud2html.py(4KB)
--------ali2matrix_html.perl(2KB)
--------RIBES.py(20KB)
----requirements.txt(15B)
----corpus()
--------idf.py(4KB)
--------corpus-clean-bitext.py(7KB)
--------tokenizer.py(662B)
--------corpus-sets-data.py(2KB)
--------train-phrases.py(9KB)
--------corpus-analyse.py(3KB)
--------lexical_score.perl(3KB)
--------sim2prime.py(15KB)
--------sim2src_tgt_sim_pre.py(7KB)
--------matchs.py(10KB)
--------tfidf.py(7KB)
--------corpus-split-sets.py(3KB)
--------faiss_cli.py(8KB)
--------print_line_n.py(797B)
--------corpus-divide-data.py(3KB)
----CMakeLists.txt(175B)
----README.md(4KB)
----download.sh(6KB)
----tokenise()
--------treetagger.py(2KB)
--------japanTok.py(7KB)
--------subword_learn.py(3KB)
--------tokenizer.py(3KB)
--------tokenize.py(3KB)
--------splitFeatsJoiner.py(4KB)
--------__pycache__()
--------HOWTO.download_install_treetagger.sh(1KB)