文件名称:Coursera_courses_scraper:Scraper 使用 Selenium 模拟浏览器并抓取异步网站
文件大小:38KB
文件格式:ZIP
更新时间:2024-07-12 12:50:43
Python
Coursera 课程爬虫 此抓取工具使用 selenium 来模仿浏览器并抓取 Coursera 上列出的所有英语语言课程。 抓取的课程数据使用 Beautiful Soup 进行解析,并将每个课程保存到 Postgres 数据库中。 技术栈 Python、BeautifulSoup、Selenium、SQLAlchemy、PostgreSQL、Unittest 显着特点 使用正则表达式从 html 标签中提取复杂的日期字符串。 使用 unittest 测试框架执行以下测试: "test_scrape_data_from_coursera" -- 验证一个虚拟 html 文件的内容是否被 Beautiful Soup 正确捕获。 "test_create_text_file_returns_correct_result" -- 在写入文件之前验证抓取的数据格式是否正确。
【文件预览】:
Coursera_courses_scraper-master
----requirements.txt(72B)
----README.md(784B)
----my_scraper()
--------test_course_listing.txt(157B)
--------models.py(1KB)
--------complete_course_list.txt(113KB)
--------test_data()
--------coursera_spider.py(5KB)
--------utilties.py(1KB)
--------tests.py(2KB)
--------items.py(355B)