kaggle-toxic-allennlp:Kaggle有毒评论挑战的AllenNLP模型

时间:2024-05-21 12:33:00
【文件属性】:

文件名称:kaggle-toxic-allennlp:Kaggle有毒评论挑战的AllenNLP模型

文件大小:12KB

文件格式:ZIP

更新时间:2024-05-21 12:33:00

Python

有毒评论分类挑战 在寒假期间,我决定尝试使用进行。 我的目标不是赢,而是看使用AllenNLP解决“新问题”将有多困难。 (“新颖”仅是在我不认为我们之前曾尝试过AllenNLP进行Kaggle比赛的意义上。) 挑战 挑战是问题。 每个训练示例都包含一个注释ID,一个Wikipedia注释以及一个长度为6的二进制矢量,该二进制矢量指示该示例是否包含某种类型的毒性。 数据 训练数据是CSV格式,所以我创建了一个自定义的ToxicReader的子类DatasetReader该指数在注释TextField ,然后创建一个ListField的LabelField S为6个标签。 它由大约96k个示例组成。 我将这些大致分为85,000个训练示例和11k验证示例。 测试数据也是CSV,但仅包含comment_id和comment列。 由于这是Kaggle竞赛,而不是学术参考数据集,因此,好的参


【文件预览】:
kaggle-toxic-allennlp-master
----.gitignore(17B)
----toxic()
--------run.py(447B)
--------data()
--------__init__.py(0B)
--------models()
--------service()
--------training()
--------predict.py(2KB)
----README.md(4KB)
----baseline.json(1KB)
----boe.json(1KB)

网友评论