文件名称:common-crawl
文件大小:4.78MB
文件格式:ZIP
更新时间:2024-06-05 20:04:02
Java
推论网络的结构 该项目的目标是对网页的结构进行分类,并根据频率和领域信息汇总这些结构。 该项目将使网页的重点抓取成为可能,并将帮助研究人员以网络规模提取数据。 由于数据集的庞大性和非结构化性,我们计划使用Hadoop生态系统中的工具(带有Tez,Apache Hive和HBase的Apache Pig)。 具体来说,具有相似html布局的页面将具有相似的html组件。 因此,叶节点的文档对象模型(DOM)路径大致描述了组件在页面渲染中的可视位置。 通过专门针对四个主要的视觉组件(例如按钮,图像,链接和视频),将生成XPath表达式的集合。 然后将基于路径结构和域信息对这些对象进行分组,然后计算网页的频率。 数据集 该项目使用的数据集来自2015年5月的网络抓取(通用抓取),其中包含超过159 TB的数据和超过20.5亿个网页。 学分 创意积分: : Web存档数据积分:Common