pillage:从网页中提取内容和元数据

时间:2024-07-26 03:08:09
【文件属性】:

文件名称:pillage:从网页中提取内容和元数据

文件大小:190KB

文件格式:ZIP

更新时间:2024-07-26 03:08:09

JavaScript

Pillage 是一个非常棒的 Node.js 库,用于解析网页。 它使用baller算法 :latin_cross: 准确地识别网页的内容区域真的,真的,真的,真的……很有趣。 一旦我们有了内容区域,我们就可以解析出文本、图像、视频和其他媒体。 为了您的方便,我们还加入了很多简单的东西,比如 OG 标签。 :latin_cross: 它基本上搜索每个文本节点,然后递归地爬上父树,根据文本长度为每个父节点分配一个加权的“分数”。 当我们向上移动树时,该值Swift下降。 这是对所有文本节点完成的,因此权重累积以识别最可能的共享父节点。 一旦我们有了那个包装器,我们就可以做出假设并轻松解析出正文内容。 安装 npm install pillage 用法 var pillage = require ( 'pillage' ) ; // Fetch a URL and process pillage ( url , function


网友评论