SmartDo数据挖掘思路

数据挖掘部分：

数据挖掘的主要网址为：

https://www.amazon.com/Best-Sellers/zgbs

挖掘部分为网址左边的入口，大约20多个，其中页面分级如下：

一级：

https://www.amazon.com/Best-Sellers/zgbs

二级：（Home-Kitchen）

https://www.amazon.com/Best-Sellers-Home-Kitchen/zgbs/home-garden/ref=zg_bs_nav_0

三级：（Bedding）

https://www.amazon.com/Best-Sellers-Home-Kitchen-Bedding/zgbs/home-garden/1063252/ref=zg_bs_nav_hg_1_hg

四级：（Quilts-Sets）

https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts-Sets/zgbs/home-garden/10671039011/ref=zg_bs_nav_hg_2_1063252

五级：（Quilts）

https://www.amazon.com/Best-Sellers-Home-Kitchen-Quilts/zgbs/home-garden/3732171/ref=zg_bs_nav_hg_3_10671039011

其中括号内的为点击的URL入口。

本次抓取的步骤如下：

将所有类目下的URL储存到数据库中
分配不同的类目的URL到不同的计算机，实行分布抓取
将抓取的HTML保存到本地
一边保存HTML时一边进行解析，将自己需要的信息提取出来
将信息储存到数据库中

数据储存部分：

数据储存首先要搭建储存的框架，初定拟定每个DB储存4个类目的所有信息，每个DB的分支如下：

graph LR

DB库-->table表1

DB库-->table表2

DB库-->table表3

DB库-->table表4

其中DB库为年份命名，例如2016；table表为类目下的所有信息，命名为“年-月-日-时-分-秒一级类目名-二级类目名...”，例如2016-10-06-14-18-55-per-dog-A

秒客网

SmartDo数据挖掘思路

SmartDo数据挖掘思路

数据挖掘部分：

数据储存部分：

数据库的搭建较为繁琐，需要从长计议。

相关文章