文件名称:News_scrapy_redis
文件大小:4.06MB
文件格式:ZIP
更新时间:2024-05-28 08:31:08
Python
爬虫说明文档 1.功能: 实现了基于scrapy-redis的增量爬取,基于simhash的相似文档的去重,支持分布式。 2. 各模块说明 Daily_crawler daily_crawler.cron crontab的定时文件, 定时运行start_crawl.sh脚本 start_crawl.sh 启动爬虫模块,并将每次爬取所花费的时间 写入 log/run_time.txt push_urls.py 每次在爬虫之前运行,清空调度队列,并将start_url push到调度队列中 news_crawl.sh 执行爬虫模块(增量爬取), 并自动进行相似文档去重,ETL, 存入mongodb ETL /Model 存放训练好的词典,语料,TF-IDF,LDA, word2vec模型 auto_embedding.py 新闻语料的清洗,以及自动化生成新闻的标题和内容embedding a