爬虫涉及若干问题V1.0
页面数据: 1. 特定数据 2. 结构型数据 3. 不规则数据 4. 待挖掘数据 5. 无价值数据 |
请求分类: 1. 模式请求 2. 样例请求 3. 指定请求 |
反爬: 1. User-Agent 2. Referer 3. X-Requested-With 4. 特殊标识 |
Cookie: 1. 不可考规则 2. 指定Token |
请求方式: 1. key-value 2. form 3. json 4. xml 5. dwc(特殊框架) |
数据格式: 1. html 2. json 3. xml 4. txt 5. 字节流 6. 加密串 |
失败分类: 1. 连接超时 2. 403 3. 自然失败 4. 限制失败(短信) |
重提策略; 1. 功能重提 2. 事务重提 3. 数据重提 4. 请求重提 |
麻烦点: 1. 关联请求 顺序规则请求 |
异常点: 1. BigDecimal(常出问题) 2. Json转换(目标有json和html两状态) 3. 类型装换 |
加密: 1. Md5 2. Js加密 3. Aes 4. |
架构: 1. 敏捷 2. 高效 3. 高可用 4. 韧性 5. 弹性 6. 可扩展性 7. 易构性 |
共性: 1. 一致性 2. 个性化 |
|