Coursera_courses_scraper:Scraper 使用 Selenium 模拟浏览器并抓取异步网站下载

【文件属性】：

文件名称：Coursera_courses_scraper:Scraper 使用 Selenium 模拟浏览器并抓取异步网站

文件大小：38KB

文件格式：ZIP

更新时间：2024-07-12 12:50:43

Python

Coursera 课程爬虫此抓取工具使用 selenium 来模仿浏览器并抓取 Coursera 上列出的所有英语语言课程。抓取的课程数据使用 Beautiful Soup 进行解析，并将每个课程保存到 Postgres 数据库中。技术栈 Python、BeautifulSoup、Selenium、SQLAlchemy、PostgreSQL、Unittest 显着特点使用正则表达式从 html 标签中提取复杂的日期字符串。使用 unittest 测试框架执行以下测试： "test_scrape_data_from_coursera" -- 验证一个虚拟 html 文件的内容是否被 Beautiful Soup 正确捕获。 "test_create_text_file_returns_correct_result" -- 在写入文件之前验证抓取的数据格式是否正确。

立即下载

【文件预览】：
Coursera_courses_scraper-master
----requirements.txt(72B)
----README.md(784B)
----my_scraper()
--------test_course_listing.txt(157B)
--------models.py(1KB)
--------complete_course_list.txt(113KB)
--------test_data()
--------coursera_spider.py(5KB)
--------utilties.py(1KB)
--------tests.py(2KB)
--------items.py(355B)

秒客网

Coursera_courses_scraper:Scraper 使用 Selenium 模拟浏览器并抓取异步网站

网友评论

相关文章