文件名称:GAN-based-data-augmentation-for-improved-hate-speech-detection:SeqGAN数据扩充
文件大小:3.8MB
文件格式:ZIP
更新时间:2024-04-02 09:58:40
JupyterNotebook
基于GAN的数据增强,可改善仇恨语音检测 SeqGAN数据增强用于改善仇恨语音检测,我们将SMOTE过采样方法用作基准。 我们还使用了四个训练有素的分类器-SVM,LSTM,BERT,Logistic回归。 要求 Tensorflow 1.15.0 Python 3.7 分类模型 如果要使用分类模型,请直接单击分类模型文件夹,在其中您将看到两个.ipynb文件,其中包含所有4个分类模型。 模型中使用的csv格式的训练集,测试集和验证集可以在数据集文件夹中看到。 SMOTE过采样 如果要实现SMOTE过采样,则只需打开SMOTE Oversamling文件夹。 其中也有两个.ipynb文件,它们是SMOTE算法之后的4个分类模型的结果。 点击任何文件,可以看到实现SMOTE的具体方法,需要注意的是SMOTE算法只能用于不平衡数据集。
【文件预览】:
GAN-based-data-augmentation-for-improved-hate-speech-detection-main
----SeqGAN()
--------models.py(13KB)
--------main.py(2KB)
--------utils.py(12KB)
--------train.py(8KB)
--------config.ini(1KB)
--------rl.py(7KB)
--------get_config.py(615B)
----Data set()
--------generated_sentences.txt(82KB)
--------train_set.txt(1.77MB)
--------test.txt(320KB)
--------train.txt(1.46MB)
--------train.csv(2.45MB)
--------dev.csv(552KB)
--------dev.txt(321KB)
--------dev_set.txt(20KB)
--------test_set.txt(19KB)
--------test.csv(552KB)
--------script.py(286B)
----classification model()
--------Lg,LSTM,SVM moel.ipynb(440KB)
--------bert model.ipynb(95KB)
----after smote()
--------Lg, LSTM,SVM model after smote.ipynb(593KB)
--------bert model after smote.ipynb(97KB)
----README.md(1KB)