employmentse:csci 572项目

时间:2024-08-03 08:05:04
【文件属性】:

文件名称:employmentse:csci 572项目

文件大小:72KB

文件格式:ZIP

更新时间:2024-08-03 08:05:04

Java

就业SE 概述 EmploymentSE 计划由 4 个主要部分组成: 解析器 包:org.employmentse.parser 类:TSVParser 说明:该类继承自 AbstractParser (tika),实现了 getSupportedTypes 和 parse 的方法。 基本上,它需要一个 TSV 文件并将文档解析为 XHTML 结构。 JSONTableContentHandler 包:org.employmentse.content.handler 类:JSONTableContentHandler 说明:该类从 SafeContentHandler 扩展并实现了字符、startElement 和 endElement 方法。 在使用 tika 解析器创建 XHTML 期间,它根据表中的行生成单个 json 文件的输出。 可以启用或禁用重复数据删除技术。


【文件预览】:
employmentse-master
----gradlew(5KB)
----encoding.txt(39B)
----colheaders.txt(199B)
----src()
--------main()
----scripts()
--------batch_caspge.sh(2KB)
--------batch_tsvtojson.sh(1KB)
----gradle()
--------wrapper()
----README.md(4KB)
----gradlew.bat(2KB)
----.gitignore(446B)
----jobFamilies()
--------industrial.txt(354B)
--------business.txt(329B)
--------medical.txt(75B)
--------it.txt(229B)
--------residential.txt(129B)
--------software.txt(412B)
--------commercial.txt(55B)
----build.gradle(948B)

网友评论