spikex:SpikeX-用于知识提取的SpaCy管道

时间:2024-06-03 02:01:37
【文件属性】:

文件名称:spikex:SpikeX-用于知识提取的SpaCy管道

文件大小:2.67MB

文件格式:ZIP

更新时间:2024-06-03 02:01:37

nlp wikipedia clustering spacy named-entity-recognition

SpikeX-用于知识提取的SpaCy管道 SpikeX是准备插入spaCy管道中的管道的集合。 它旨在以几乎零的努力来帮助构建知识提取工具。 SpikeX 0.5.0的新功能 WikiGraph从未如此快如闪电: :full_moon: 性能表现出来的稀里糊涂,由于采用稀疏邻接矩阵来处理网页图形,而不是使用的igraph :rocket: 内存优化,消耗减少约40%,压缩大小减少约20%,引入了新的双向字典来管理数据 :open_book: 新的API ,可以更快,更轻松地使用和交互 :hammer_and_wrench: 整体修复,以获得更好的图形和更好的页面匹配 管子 WikiPageX将Wikipedia页面链接到文本块 ClusterX在文本中选择名词块,并根据对算法Radial Ball Mapper的重新研究将其聚类 AbbrX会检测到缩写词和首字母缩写词,并将其链接到它们的长格式。 它基于的改进 LabelX获取模式匹配表达式的标签并将其捕获到文本中,从


【文件预览】:
spikex-master
----MANIFEST.in(294B)
----requirements-dev.txt(401B)
----AUTHORS.md(164B)
----.github()
--------ISSUE_TEMPLATE.md(317B)
----tests()
--------conftest.py(961B)
--------__init__.py(0B)
--------matcher()
--------test_util.py(2KB)
--------pipes()
----LICENSE(11KB)
----spikex()
--------_about.py(225B)
--------templates()
--------errors.py(0B)
--------util.py(4KB)
--------__main__.py(869B)
--------__init__.py(33B)
--------matcher()
--------wikigraph()
--------defaults.py(86B)
--------pipes()
--------cli()
----azure-pipelines.yml(2KB)
----CONTRIBUTING.md(3KB)
----setup.cfg(683B)
----requirements.txt(112B)
----LICENSE-THIRD-PARTY(4KB)
----setup.py(1KB)
----.gitignore(2KB)
----tasks.py(3KB)
----README.md(10KB)
----scripts()
--------create-venv.sh(249B)
--------profile.sh(27B)
--------benchmark.sh(38B)
----.editorconfig(292B)

网友评论