文件名称:CTAKESContentHadler:这是将 Apache cTAKES 支持添加到 Apache Tika 的初步工作
文件大小:39.48MB
文件格式:ZIP
更新时间:2024-06-24 23:10:54
Java
CTAKES内容处理程序 这是将支持添加到的初步工作。 是一个工具包,用于使用现有的解析器库从各种文档中检测和提取元数据和结构化文本内容。 是一种自然语言处理系统,用于从电子病历临床*文本中提取信息。 CTAKESContentHandler允许在 Tika 中执行以下步骤: 基于给定的 XML 描述符创建一个 AnalysisEngine; 创建适合此分析引擎的 CAS(通用分析系统); 使用 Tika 提取的文本填充 CAS; 针对添加到 CAS 的纯文本执行 AnalysisEngine; 以给定的格式(XML、XCAS、XMI 等)写出结果。 与创建支持 cTAKES 的新 Tika 解析器不同,依赖 cTAKES 的新 ContentHandler 允许用户运行 cTAKES 以从(几乎)提取生物医学信息。 入门 要构建 CTAKESContentHandle
【文件预览】:
CTAKESContentHadler-master
----LICENSE(11KB)
----src()
--------org()
--------TestCTAKESContentHandler.java(2KB)
----run.sh(2KB)
----.gitignore(189B)
----lib()
--------tika-app-1.8.jar(44.1MB)
----README.md(4KB)
----build.sh(934B)