文件名称:EurLex-Multilabel-Classification:法律文件的多重分类(Eur-Lex)
文件大小:29.62MB
文件格式:ZIP
更新时间:2024-05-20 13:46:58
text-mining r multilabel-classification legal-documents eurlex
法律语料库的多重分类(EUR-Lex) 单个文本文档通常具有多个语义方面。 与政治有关的单个新闻文章可能具有与贸易,技术和国防有关的方面。 从机器学习的角度来看,我们可以将各个方面解释为实例(文档)的多个类标签。 在这个项目中,我们探索了一个公开的多标签法律文本数据集,该数据集已被手动注释了十年。 它以24种不同的语言包含与欧盟有关的法律,包括条约,立法,判例法和立法建议。 这就是众所周知的EUR-Lex数据集,其中包含约两万个文档和七千个标签。 每个文档中多个标签的偏斜分布以及以多种语言存在的相同数据使该数据集成为一个有趣的主张。 网址 截屏网址 资料网址 数据文件夹中显示英语和德语数据。 请注意,如果您正在从Github Web下载代码(如下图所示),则不会下载数据(因为它超出了Github提供的限制)。 在这种情况下,请执行以下操作: 从以下链接下载数据: 下载文件后: 英