文件名称:words2map:带有单词向量的在线自然语言处理
文件大小:57.93MB
文件格式:ZIP
更新时间:2024-05-02 23:53:43
Python
word2map如何通过在线搜索来导出词汇量( )向量: (1)将NLP向量数据库与网络搜索引擎API(例如Google / Bing)连接(2)对未知词进行网络搜索(就像人类一样) (3)解析来自前M个网站(例如M = 50)的所有文本的N-gram(例如N = 5) (4)从预训练的语料库中过滤已知的N-gram(例如word2vec,具有300万个N-gram) (5)排名N-gram:M个网站上的全局全局频率x本机频率(即 ) (6)推导一个新的向量:已知的O个最著名的N-gram的向量之和(例如O = 25),即 (7)通过将尺寸缩小为2D / 3D进行可视化(例如可以使用,但建议使用 ) (8)最后,在感知均匀的空间中显示具有集群,并颜色编码 如上所述,这些OOV向量是在几秒钟内得出的: 有关words2map算法的更多详细信息,请参见此。 通过在线搜索导出单词的新向量
【文件预览】:
words2map-master
----words2map.py(16KB)
----install.sh(4KB)
----visualizations()
--------human_robot_cyborg.png(32KB)
--------.DS_Store(6KB)
--------architecture.png(41KB)
--------passions.png(533KB)
--------tech.png(374KB)
--------famous.png(426KB)
----words()
--------famous.csv(1KB)
--------tech.csv(858B)
--------computer_science_branches.csv(963B)
--------.DS_Store(6KB)
--------passions.csv(1KB)
----fonts()
--------Comfortaa-Regular.ttf(192KB)
----LICENSE.md(1KB)
----README.md(3KB)
----derived_vectors()
--------passions.txt(279KB)
--------tech.txt(77KB)
--------computer_science_branches.txt(140KB)
----vectors.tar.gz(56.43MB)