文件名称:DALC:荷兰语虐待性语言数据
文件大小:1.06MB
文件格式:ZIP
更新时间:2024-04-28 15:01:20
JupyterNotebook
DALC-荷兰辱骂语言语料库 该存储库包含: 荷兰语辱骂语料库v1.0(DALC v1.0)(文件夹“数据”) 与DALC v1.0相关的数据声明(见下文); 已开发出可识别虐待性语言的基准模型(二进制和三元分类) 的副本 这项工作是格罗宁根大学(University of Groningen)2019/2020学年信息科学学士学位论文的一部分。 这项工作已根据。 DALC的数据声明 数据集名称:Ducth辱骂语言语料库v1.0 引文(如果有):n / a 数据集开发人员:Marieke Weultjes,Arjan Schelhaas,Folkert Leistra,Hylke van der Veen,Menno Robben,Gerben Timmerman 数据陈述作者:Tommaso Caselli 对本文档做出贡献的其他人: A.编制理由 语料库由使用不同策
【文件预览】:
DALC-master
----data()
--------dalc_v1_test.csv(485KB)
--------dalc_v1_dev.csv(146KB)
--------dalc_v1_train.csv(1.46MB)
----guidelines_abusive_language.pdf(49KB)
----models()
--------features.py(6KB)
--------abuse_svm_approach.py(5KB)
--------abuse_svm+lexicon_approach.py(6KB)
--------abuse_dictionary_approach.py(4KB)
--------BERT4DALC.ipynb(90KB)
----LICENSE(34KB)
----.DS_Store(6KB)
----README.md(6KB)
----GROF_LEX()
--------groflex.tsv(25KB)