文件名称:dataFusion:非结构化和结构化数据集之间的匹配
文件大小:37.11MB
文件格式:ZIP
更新时间:2024-05-20 02:48:06
Scala
dataFusion 介绍 目的是通过将非结构化数据与结构化数据融合来提取有用的信息。 这个项目: 提取文本和元数据,并使用从多种非结构化文档格式(PDF,Word,Excel等)执行语言检测。 处理包括嵌入式文档,在图像的情况下,涉及使用 获取文本。 执行(NER); 提供对文档中已知实体的批量搜索,报告每个匹配项的位置; 建立实体的网络,这些实体在文档中紧密并排在一起,因此可能以某种方式相关联; 为上述和多线程命令行界面提供Web服务(访问相同功能的两种选择)。 下图描述了处理步骤和数据流。 请参阅,以获取每一步数据的详细信息。 项目结构 顶层目录为每个中的子项目提供构建: dataFusion-$name库的dataFusion-$name ; 和 Web服务的dataFusion-$name-service 。 该库项目的dataFusion- {tika,n