硕士常用工具包时间:2020-12-20 06:05:23 网络数据获取 :web Crawler heritrix(JAVA) 网页数据净化工具: htmlparser Jsoup Jsoup是基于Java的开源程序,可以直接解析出网页中的URL地址和其中的文本