文件名称:eda_nlp:NLP的数据增强,在EMNLP 2019上展示
文件大小:222KB
文件格式:ZIP
更新时间:2024-02-24 09:07:02
nlp text-classification position cnn embeddings
EDA:轻松的数据增强技术可提高文本分类任务的性能 这是EMNLP-IJCNLP论文 解释EDA的博客文章在 。 更新:在中文找到EDA的外部实现。 和邹凯。 注意:请勿向我发送问题的电子邮件,因为我不会回复。 而是打开一个问题。 我们目前EDA:电子ASY d ATA一个ugmentation技术提高文本分类任务中的表现。 这些是一组易于实施的通用数据增强技术,并显示出对五个NLP分类任务的改进,对大小为N < 500数据集也进行了重大改进。 虽然其他技术要求您在外部数据集上训练语言模型只是为了获得一点点提升,但我们发现使用EDA进行简单的文本编辑操作会带来良好的性能提升。 给定训练集中的句子,我们执行以下操作: 同义词替换(SR):从句子中随机选择n个非停用词。 用随机选择的其中一个同义词替换这些单词中的每个单词。 随机插入(RI):在句子中找到不是停用词的随机词的随机同义词。 将该同义词插入句子中的随机位置。 这样做n次。 随机交换(RS):在句子中随机选择两个单词并交换其位置。 这样做n次。 随机删除(RD):对于句子中的每个单词,以概率p随机删除它。
【文件预览】:
eda_nlp-master
----.gitignore(188B)
----preprocess()
--------shuffle_lines.py(203B)
--------trej_clean.py(675B)
--------get_stats.py(757B)
--------create_dataset_increments.py(220B)
--------copy_sized_datasets.py(463B)
--------cr_clean.py(1KB)
--------bg_clean.py(16KB)
--------utils.py(632B)
--------__pycache__()
--------sst1_clean.py(3KB)
--------procon_clean.py(1KB)
--------subj_clean.py(1KB)
----eda_figure.png(109KB)
----data()
--------lol.txt(291KB)
--------sst2_train_500.txt(48KB)
----experiments()
--------c_1_data_process.py(822B)
--------e_2_rnn_baselines.py(2KB)
--------e_2_cnn_baselines.py(2KB)
--------e_2_rnn_aug.py(2KB)
--------a_config.py(910B)
--------b_1_data_process.py(651B)
--------d_1_train_models.py(2KB)
--------b_2_train_eval.py(2KB)
--------b_config.py(504B)
--------nlp_aug.py(10KB)
--------d_neg_1_balance_trec.py(258B)
--------a_2_train_eval.py(3KB)
--------__pycache__()
--------e_config.py(700B)
--------c_2_train_eval.py(3KB)
--------d_2_tsne.py(4KB)
--------a_1_data_process.py(1KB)
--------methods.py(9KB)
--------e_1_data_process.py(717B)
--------d_0_preprocess.py(794B)
--------c_config.py(654B)
--------e_2_cnn_aug.py(2KB)
----code()
--------augment.py(3KB)
--------eda.py(7KB)
--------__pycache__()
----README.md(5KB)