文件名称:dragnet_data:Dragnet 的训练测试数据
文件大小:23.86MB
文件格式:ZIP
更新时间:2024-07-18 01:13:05
Shell
伴随 Moz 内容提取算法 Dragnet 的训练和测试数据。 有关算法和代码的详细信息,请参见 注意:虽然 Dragnet 代码和训练模型在 MIT 许可下获得许可,但这些数据在 AGPLv3 下获得许可。 这意味着,除其他外,来自数据的任何衍生作品也必须是开源的,即使它们是作为服务提供的。 我们在这里的目的是免费提供研究/非商业用途,并允许商业用途,只要它是开源的。 数据由于 2012 年收集。 安装 git clone https://github.com/seomoz/dragnet_data.git cd dragnet_data tar xvf dragnet_HTML.tar.gz tar xvf dragnet_Corrected.tar.gz 有关数据的详细信息 训练数据集由一组网页和提取的“黄金标准”内容组成。 出于我们的目的,我们将数据集标准化为磁盘上具有特定目
【文件预览】:
dragnet_data-master
----dragnet_HTML.tar.gz(20.81MB)
----LICENSE(34KB)
----test.txt(2KB)
----training.txt(4KB)
----README.md(4KB)
----cetr_to_dragnet.sh(3KB)
----dragnet_Corrected.tar.gz(3.15MB)