特征:从自然历史注释中提取信息

时间:2024-03-08 18:36:53
【文件属性】:

文件名称:特征:从自然历史注释中提取信息

文件大小:74KB

文件格式:ZIP

更新时间:2024-03-08 18:36:53

python trait python3 information-extraction spacy-nlp

性状数据库项目 特质 这是所有客户Traiter项目( , 等)使用的基本Traiter信息提取/数据挖掘库。 它本身不包含可运行的代码。 挖掘了一些文献: 包含有关物种描述的研究论文的PDF。 包含物种分布数据的PDF。 实地记录和物种描述的数据库下载。 博物馆标本的图像。 我们目前正在从图像中的标签中提取数据。 从网站上抓取的包含物种正式描述(治疗)的数据。 物种描述和分布数据的PDS图像。 数据收集说明的图像。 注意所有术语,特征和提取方法对于要开采的文献都是唯一的,因此该存储库仅包含真正通用的术语,特征或就此而言在许多研究领域中使用的功能。 解析策略 让专家确定相关术语和目标特征。 我们使用专家识别的术语来使用Spacy的短语和正则表达式匹配器标记术语。 这些有时本身就是特质,但更常用作特质复杂模式的锚点。 然后,我们反复使用Spacy的基于规则的匹配器从较


【文件预览】:
traiter-master
----setup.py(1KB)
----.gitignore(405B)
----requirements.txt(73B)
----data()
--------.gitkeep(0B)
----MANIFEST.in(33B)
----assets()
--------anoplura_rules.png(22KB)
----requirements_dev.txt(57B)
----LICENSE(1KB)
----traiter.egg-info()
--------top_level.txt(14B)
--------SOURCES.txt(1KB)
--------PKG-INFO(4KB)
--------dependency_links.txt(1B)
--------requires.txt(73B)
----.github()
--------workflows()
----traiter()
--------pipes()
--------actions.py(1KB)
--------__init__.py(0B)
--------terms()
--------tokenizer_util.py(2KB)
--------vocabulary()
--------util.py(4KB)
--------patterns()
--------old()
--------const.py(1KB)
----README.md(3KB)
----tests()
--------__init__.py(0B)
----dev_env.bash(520B)

网友评论