文件名称:EventEpi:从流行病学文本中提取最重要实体并对其进行分析的工具
文件大小:2.1MB
文件格式:ZIP
更新时间:2024-03-06 21:37:48
JupyterNotebook
此仓库包含EventEpi的工作。 EventEpi是支持基于事件的监视的框架。 该框架包含三部分,它们构成了EventEpi的工作流程: event_db_preprocessing ,其中包含使用流行病学数据库可能必需的示例性预处理步骤。 scraper ,其中包含用于 和文章 *的 对的查询,其中包含所有英文和德文的疾病名称。 此外,它还包含文本提取功能,可从原始HTML或PDF提取相关文本。 classifer ,包含从流行病学文本中提取关键命名实体并确定给定代码库的文章的相关性的模块。 安装 在您的虚拟环境中 $ pip install -r requirements.txt NLTK需要语料库 EpiTator需要数据 功能性 预处理 目的是翻译德国的国家和疾病名称,使其与输出。 这对于分类器很重要,因为它们需要与EpiTator输出类似的标签。 由于将Wiki
【文件预览】:
EventEpi-master
----notebooks()
--------classification.ipynb(270KB)
--------Eyeballing IDB.ipynb(27KB)
--------statistics.ipynb(171KB)
--------annotation_testing.ipynb(24KB)
--------T-sne_embeddings.ipynb(589KB)
--------build_epi_corpus.ipynb(7KB)
--------LRP_analysis.ipynb(723KB)
----requirements.txt(341B)
----README.md(4KB)
----eventepi()
--------my_utils.py(4KB)
--------__init__.py(0B)
--------pipeline.py(18KB)
--------event_db_preprocessing()
--------classifier()
--------scraper()
----tests()
--------test_translation.py(2KB)
--------__init__.py(0B)
--------test_extract_sentence_from_entitiy.py(2KB)
--------test_wikipedia_list_of_countries.py(3KB)
--------test_pipeline_data_formats.py(1KB)
--------test_event_db_preprocessing.py(7KB)
----.gitignore(1KB)
----web_app()
--------app.py(3KB)
--------images()
--------js()
--------__init__.py(0B)
--------css()
--------embedder.py(1KB)
--------templates()