文件名称:python-beautifulsoup-pool:带有线程池的Python Web Scraping
文件大小:2KB
文件格式:ZIP
更新时间:2024-06-08 03:53:14
Python
python-beautifulsoup-pool 使用Python多处理池技术的Python Web抓取从论坛线程中输出具有多个页面的所有帖子的.txt文件。 此特定文件将刮擦与所有与表格4 ATF(酒精-烟草-火器)的等待时间相关的所有论坛帖子,以等待原始数据源在数据处理引擎(火花等)中进一步处理时间的计算。 场地 数据中心 小路 基础项目路径 BASE_URL 您希望抓取的论坛/主题的基本URL NUM_PAGES 主题/主题中的总页数 POOL_SIZE 您的多处理程序的最大池大小
【文件预览】:
python-beautifulsoup-pool-master
----README.md(661B)
----form4waittimes-multithread.py(1KB)