SmartDo数据挖掘思路
数据挖掘部分:
数据挖掘的主要网址为:
https://www.amazon.com/Best-Sellers/zgbs
挖掘部分为网址左边的入口,大约20多个,其中页面分级如下:
一级:
https://www.amazon.com/Best-Sellers/zgbs
二级:(Home-Kitchen)
https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0
三级:(Bedding)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Bedding/zgbs/home-garden/1063252/ref=zg_bs_nav_hg_1_hg
四级:(Quilts-Sets)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts-Sets/zgbs/home-garden/10671039011/ref=zg_bs_nav_hg_2_1063252
五级:(Quilts)
https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts/zgbs/home-garden/3732171/ref=zg_bs_nav_hg_3_10671039011
其中括号内的为点击的URL入口。
本次抓取的步骤如下:
- 将所有类目下的URL储存到数据库中
- 分配不同的类目的URL到不同的计算机,实行分布抓取
- 将抓取的HTML保存到本地
- 一边保存HTML时一边进行解析,将自己需要的信息提取出来
- 将信息储存到数据库中
数据储存部分:
数据储存首先要搭建储存的框架,初定拟定每个DB储存4个类目的所有信息,每个DB的分支如下:
graph LR
DB库-->table表1
DB库-->table表2
DB库-->table表3
DB库-->table表4
其中DB库为年份命名,例如2016;table表为类目下的所有信息,命名为“年-月-日-时-分-秒一级类目名-二级类目名...”,例如2016-10-06-14-18-55-per-dog-A