piianalyzer:iHub 2015年夏季项目

时间:2024-05-30 23:34:59
【文件属性】:

文件名称:piianalyzer:iHub 2015年夏季项目

文件大小:17.03MB

文件格式:ZIP

更新时间:2024-05-30 23:34:59

Python

PII分析仪 分析数据集中的PII 将数据集和资源分为“ PII”和“非PII”。 该任务需要创建一个工具,该工具将检测上载到HDX的新数据集是否包含任何个人身份信息-可以单独使用或与其他信息一起使用的数据,以识别,联系或定位一个人,或识别一个人在上下文中。 然后,该工具应警告HDX数据管理器是否已上传任何此类数据集,并且还应就此警告数据所有者。 我的解决方案 我决定将以下工具用于上述任务: :用于提取某些类型的“ PII”,例如电子邮件地址,电话号码,街道地址,信用卡号, :用于提取位置,组织和人民的名字。 分析器打开提供的文件,对其进行分析,然后返回提供的数据集中的数据类型的摘要。 利用此信息,数据管理器可以轻松地对数据进行分类。 安装 使用以下方式从pypi安装: pip install piianalyzer 要求 需要斯坦福命名实体识别器。 可以在这里下载: :


【文件预览】:
piianalyzer-master
----manage.py(332B)
----piianalyzer()
--------__init__.py(134B)
--------analyzer.py(2KB)
----requirements.txt(67B)
----requirements_dev.txt(34B)
----setup.py(837B)
----README.md(2KB)
----classifiers()
--------english.conll.4class.distsim.crf.ser.gz(16.98MB)
----tests()
--------test_piianalyzer.py(790B)
--------__init__.py(0B)
--------files()
----.gitignore(331B)

网友评论