爬虫技术收集整理

时间:2022-10-04 20:29:20

[爬虫技术收集整理]

[通用知识]

正则表达式中各种字符的含义

Web Crawler Slide share

Quick & Dirty Python

 

[Java语言]

[知了开发]“知了”优化 - WebMagic 调优

ContentExtractor开源网页正文抽取工具

垂直型爬虫架构设计

分布式网络爬虫的基本实现简述

分布式多爬虫系统——架构设计

httpclient 多线程高并发Get请求

Java爬虫框架WebMagic的使用总结

Async Http Client

OkHttp

- OkHttp:Java 平台上的新一代 HTTP 客户端

- 《HttpClient 官方文档》第五章 Fluent API

 

[Python语言]

pip requirements导出当前项目所用的包list列表

python实现RESTful服务(基于flask)

nosetest

为什么有人说 Python 的多线程是鸡肋呢?

 

[定向技术]

Mining Twitter Data with Python

Enterprise data -- Twitter Developers

基于搜狗微信搜索的微信公众号爬虫

爬取搜索引擎之搜狗