文件名称:clean-dialog:清理对话框数据的框架
文件大小:11.14MB
文件格式:ZIP
更新时间:2024-03-23 19:14:19
text dialog chinese-language cleaning-data Python
本项目为一个清洗对话数据的多线程框架,目前还比较简陋,欢迎提bug和优化,索引句重复重复降重函数的正则或者后缀算法。代码还在继续完善中,注释以及一些函数出处引用等待完善。 目录结构 --clean: 清洗框架主目录 ---rules: 存放各级别的规则函数 ---tool_data: 存放黑名单词典,每行一个词 ---run_dist.py: 主运行文件,构造dataloader, 加载黑名单 ---single_filter.py: run_dist.py所调用的单个线程的主程序,加载处理单个数据,并保存过滤后的数据以及脏数据 ---run.sh: 使用我挑选的几个规则来运行run_dist.py 运行 bash run.sh 规则 规则包括目前大部分纸张内的清洗规则: 1黑名单过滤,包括特殊字符和脏话2个表情符号表情3邮箱,电话号等隐私过
【文件预览】:
clean-dialog-master
----tool_data()
--------black_list_vocab.txt(804KB)
--------black_str_vocab.txt(512KB)
--------special_topic.txt(527KB)
--------person_name.txt(17.87MB)
----toy_data()
--------raw()
----data_utils.py(1KB)
----single_filter.py(9KB)
----run.sh(280B)
----requirements.txt(22B)
----README.md(4KB)
----.gitignore(4KB)
----rules()
--------data_level.py(3KB)
--------str_level.py(7KB)
--------session_level.py(494B)
----run_dist.py(3KB)