基于Wasserstein生成对抗网络的微博作者身份识别。下载

【文件属性】：

文件名称：基于Wasserstein生成对抗网络的微博作者身份识别。

文件大小：614KB

文件格式：PDF

更新时间：2024-05-31 04:42:22

Authorship identification, Wasserstein generative adversarial

在过去的几年中，作者身份的识别在公共安全领域发挥了重要作用。最近，基于深度学习的方法已被用于作者身份识别。但是，所有基于深度学习的方法都需要大量原始数据，而作者仅发布了数量有限的文本用作正面样本。这样，就会出现数据丢失和类不平衡的问题，从而导致分类器过度适合小数据。此外，该方法可能因数据先验而有偏差。为了解决这些问题，在本文中，我们使用Wasserstein生成对抗网络（WGAN）为缺少数据的阳性类别生成样本，并提出了一种新颖的用于作者身份识别的数据扩充框架。为了形成增强训练数据集，我们将生成的新样本与数据集中的原始特征混合在一起。这样，对其进行训练的分类器将不会遭受过度拟合和类不平衡的困扰，因此性能得到了显着改善。使用爬网的新浪微博数据集，我们根据经验评估了这种数据扩充。实验结果表明，与强大的基准相比，我们的方法的准确度显着提高了14％。我们通过一组比较实验进一步验证了其有效性。

立即下载

秒客网

基于Wasserstein生成对抗网络的微博作者身份识别。

网友评论

相关文章