文件名称:newspaperjs:新闻提取和抓取。 文章解析
文件大小:289KB
文件格式:ZIP
更新时间:2024-06-01 17:09:07
nodejs crawler scraper news news-aggregator
报纸js 新闻提取和抓取。 最大限度地发挥和。 受到“ ”的启发 特征 新闻网址识别 新闻类别提取 从html提取文本 从html提取顶部图像 从HTML提取描述 从html提取关键字 从HTML提取作者 安装 npm install newspaperjs 使用API const Build = require ( 'newspaperjs' ) . Build ; const Article = require ( 'newspaperjs' ) . Article 建立新闻来源 构建源将使用两种简单方法提取其类别和文章url。 .getCategoriesUrl(url {string},cateOfInterest [array]) 获取所有类别的URL。 指定cateOfInterest时,仅在找到它们的情况下提取其链接。 返回Promise,即类别url的数组。 B
【文件预览】:
newspaperjs-master
----.eslintrc(74B)
----index.js(139B)
----package.json(1KB)
----License.md(1KB)
----test()
--------article_spec.js(372B)
--------extractor_spec.js(3KB)
--------data()
--------_extractor_spec.js(2KB)
--------_url_spec.js(7KB)
--------network_spec.js(437B)
--------util_spec.js(786B)
--------url_spec.js(3KB)
----package-lock.json(165KB)
----.npmignore(14B)
----.gitignore(43B)
----lib()
--------config.js(243B)
--------url.js(2KB)
--------util.js(323B)
--------network.js(916B)
--------article.js(772B)
--------_special()
--------source.js(1KB)
--------extractor.js(5KB)
----README.md(5KB)