web-crawler:使从动态网页中提取数据变得容易

时间:2024-07-17 03:56:47
【文件属性】:

文件名称:web-crawler:使从动态网页中提取数据变得容易

文件大小:19KB

文件格式:ZIP

更新时间:2024-07-17 03:56:47

JavaScript

网络爬虫 web-crawler允许您以强大而方便的方式从动态网页中提取数据。 这可以通过使用 - 一个无头浏览器 - 将您的抓取代码注入正在运行的页面中。 为了处理复杂的场景,操作序列被表示为一个状态机。 用法 考虑您当地电影院的动态分页网页。 它的 HTML 看起来像这样: < html > < head > < title > The Local Cinema </ title > < script > // a script that performs AJAX requests to dynamically load // and display new pages, depending on the users clicks </ script > </ head > < body > < h1> The Local Cinema - To


【文件预览】:
web-crawler-master
----.gitignore(4B)
----README.md(11KB)
----examples()
--------README.md(2KB)
--------extract-movie-titles.js(1KB)
--------extract-shop-items.js(1KB)
--------pages()
--------extract-movies.js(3KB)
--------serve-shop-items.js(983B)
----LICENSE(1KB)
----lib()
--------sm.js(4KB)
--------util.js(7KB)

网友评论