基于Wasserstein生成对抗网络的微博作者身份识别。

时间:2024-05-31 04:42:22
【文件属性】:

文件名称:基于Wasserstein生成对抗网络的微博作者身份识别。

文件大小:614KB

文件格式:PDF

更新时间:2024-05-31 04:42:22

Authorship identification, Wasserstein generative adversarial

在过去的几年中,作者身份的识别在公共安全领域发挥了重要作用。 最近,基于深度学习的方法已被用于作者身份识别。 但是,所有基于深度学习的方法都需要大量原始数据,而作者仅发布了数量有限的文本用作正面样本。 这样,就会出现数据丢失和类不平衡的问题,从而导致分类器过度适合小数据。 此外,该方法可能因数据先验而有偏差。 为了解决这些问题,在本文中,我们使用Wasserstein生成对抗网络(WGAN)为缺少数据的阳性类别生成样本,并提出了一种新颖的用于作者身份识别的数据扩充框架。 为了形成增强训练数据集,我们将生成的新样本与数据集中的原始特征混合在一起。 这样,对其进行训练的分类器将不会遭受过度拟合和类不平衡的困扰,因此性能得到了显着改善。 使用爬网的新浪微博数据集,我们根据经验评估了这种数据扩充。 实验结果表明,与强大的基准相比,我们的方法的准确度显着提高了14%。 我们通过一组比较实验进一步验证了其有效性。


网友评论