common-crawl下载

【文件属性】：

文件名称：common-crawl

文件大小：4.78MB

文件格式：ZIP

更新时间：2024-06-05 20:04:02

Java

推论网络的结构该项目的目标是对网页的结构进行分类，并根据频率和领域信息汇总这些结构。该项目将使网页的重点抓取成为可能，并将帮助研究人员以网络规模提取数据。由于数据集的庞大性和非结构化性，我们计划使用Hadoop生态系统中的工具（带有Tez，Apache Hive和HBase的Apache Pig）。具体来说，具有相似html布局的页面将具有相似的html组件。因此，叶节点的文档对象模型（DOM）路径大致描述了组件在页面渲染中的可视位置。通过专门针对四个主要的视觉组件（例如按钮，图像，链接和视频），将生成XPath表达式的集合。然后将基于路径结构和域信息对这些对象进行分组，然后计算网页的频率。数据集该项目使用的数据集来自2015年5月的网络抓取（通用抓取），其中包含超过159 TB的数据和超过20.5亿个网页。学分创意积分： : Web存档数据积分：Common

立即下载

秒客网

common-crawl

网友评论