垂直领域数据获取:
c、c++ 、PHP 、per: curl级别上单机、多线程一天下载 1000W 网页是没有问题
java : 用 jsoup、直接用 httpclient发请求
c、c++ : 可以用这个 spiders 比较轻编译后配置一下种子 就可以工作
相关领域的APP下载分析获取相关数据
网页解析:网页内容抽取用正则表达式简单
java : jsoup 解析网页
php : simple_html_dom.php
c\c++ : webkit 成本巨高 不建议
javascript : phantomjs
GitHub:查一下
数据清洗: 前期用规则 数据量不大比较可行
数据库:1、关系型 mysql ; 2、nosql: ssdb、redis、levelDB