Python-Web-Crawler:用python编写的Web Spider,用于在Amazon上获取用户信息

时间:2024-06-04 05:39:49
【文件属性】:

文件名称:Python-Web-Crawler:用python编写的Web Spider,用于在Amazon上获取用户信息

文件大小:1.73MB

文件格式:ZIP

更新时间:2024-06-04 05:39:49

HTML

Python网络爬虫 用python编写的Web Spider,用于在Amazon上获取用户信息 文件简介: Deduplication.py重复Deduplication.py删除,对'./userIds'中的相同用户ID Deduplication.py数据删除breakpoint存储断点,有时,Amazon服务器可能会让我的搜寻器超时,但是我没有处理这种情况,因此我需要一个“断点”来存储意外停止的查询,在该文件中存储了用户ID并没有被执行,所以下一次我只需要停止我的python程序并重新启动,再次运行它,它就可以从断点恢复查询。 data存储一些有用的信息,例如没有退出用户ID或Web链接newIDs在处理'./Deduplication.py'之后存储用户ID,将不存在相同的用户ID processFile.py生成文件'./userIds',读取行并将其拆分并获取用户ID,其有用


【文件预览】:
Python-Web-Crawler-master
----storage.dat(2KB)
----userInfo.data(247KB)
----Deduplication.py(278B)
----processFile.py(467B)
----README.md(1KB)
----GetSSInfo()
--------2015_08_18 15.39.52.722.result(419B)
--------getssInfo.py(3KB)
--------2015_08_18 15.39.52.515.html(26KB)
--------log.tmp(27B)
----breakpoint(15B)
----newIDs(1.02MB)
----data(170B)
----userIds(1.58MB)
----walker.py(5KB)
----test.html(122KB)

网友评论