文件名称:wikipedia2vec:一种用于从Wikipedia中学习单词和实体的矢量表示的工具
文件大小:860KB
文件格式:ZIP
更新时间:2024-02-24 09:11:28
python nlp natural-language-processing text-classification wikipedia
* Wikipedia2Vec是用于从Wikipedia获取单词和实体(即,在Wikipedia中具有相应页面的概念)的嵌入(或矢量表示)的工具。 它由开发和维护。 该工具使您可以同时学习单词和实体的嵌入,并将相似的单词和实体彼此放置在连续的向量空间中。 可以通过单个命令轻松地训练嵌入,并以公开可用的Wikipedia转储作为输入。 该工具实现了来学习单词的嵌入,并且在的文章中提出了扩展 学习实体的嵌入。 提供Wikipedia2Vec与现有嵌入工具(即FastText,Gensim,RDF2Vec和Wiki2vec)之间的经验比较。 可从在线获得文档。 基本用法 可以通过PyPI安装Wikipedia2Vec: % pip install wikipedia2vec 使用此工具,可以通过将Wikipedia转储作为输入运行火车命令来学习嵌入。 例如,以下命令下载最新的英语*转储并从该转储中学习嵌入内容: % wget https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles
【文件预览】:
wikipedia2vec-master
----MANIFEST.in(140B)
----paper()
--------paper.bib(5KB)
--------model.png(120KB)
--------paper.md(11KB)
----wikipedia2vec()
--------utils()
--------link_graph.pyx(6KB)
--------mention_db.pyx(10KB)
--------link_graph.pxd(504B)
--------__init__.py(131B)
--------dump_db.pyx(9KB)
--------dump_db.pxd(694B)
--------mention_db.pxd(995B)
--------dictionary.pyx(12KB)
--------cli.py(12KB)
--------wikipedia2vec.pyx(24KB)
--------dictionary.pxd(1KB)
----scripts()
--------intrinsic_eval.py(8KB)
--------gensim_wikipedia.py(2KB)
----.circleci()
--------config.yml(3KB)
----cythonize.sh(199B)
----requirements.txt(144B)
----examples()
--------text_classification()
----mkdocs.yml(743B)
----LICENSE(580B)
----setup.py(3KB)
----README.md(7KB)
----data()
--------de()
--------fr()
--------pl()
--------es()
--------en()
--------zh()
--------pt()
----docs()
--------usage.md(2KB)
--------index.md(6KB)
--------img()
--------custom_theme()
--------intro.md(3KB)
--------commands.md(9KB)
--------install.md(2KB)
--------css()
--------_config.yml(47B)
--------pretrained.md(8KB)
----tests()
--------utils()
--------__init__.py(726B)
--------test_link_graph.py(2KB)
--------test_data()
--------test_dictionary.py(7KB)
--------test_dump_db.py(5KB)