simple-xml-scraper:将远程 XML 保存到本地 XML 文件中的简单 XML Scrapper(其他格式正在开发中)

时间:2024-06-25 09:42:30
【文件属性】:

文件名称:simple-xml-scraper:将远程 XML 保存到本地 XML 文件中的简单 XML Scrapper(其他格式正在开发中)

文件大小:7KB

文件格式:ZIP

更新时间:2024-06-25 09:42:30

JavaScript

简单的节点 XML 抓取工具 一个非常简单的 XML Scraper,它将搜索 XML 索引站点地图中的所有标签。 然后,它将对每个链接执行 HTTP GET ,然后将抓取每个链接的响应并最终保存到单独的.csv文件中。 设置 运行npm install以安装所有依赖项。 node app.js --sitemap_index_url=http://www.nytimes-se.com/nytse/sitemap.xml 定时任务 此节点应用程序具有一个正在运行的内部 cron 作业,可以使用正则 cron 表达式并在此作业的 CLI 命令中使用cron_schedule=标志设置该作业。 以下命令将取消指定站点地图的 30 分钟标记。 node app.js --sitemap_index_url=http://www.nytimes-se.com/nytse


【文件预览】:
simple-xml-scraper-master
----crawler.js(6KB)
----package.json(1KB)
----messages.js(785B)
----filesystem.js(1KB)
----spec()
--------spec.with-sitemap.js(2KB)
--------spec.without-sitemap.js(2KB)
----.gitignore(646B)
----Makefile(371B)
----app.js(88B)
----README.md(949B)

网友评论