reader:通过Mercury Web Parser从网页中提取干净的可读文本

时间:2024-06-04 06:34:18
【文件属性】:

文件名称:reader:通过Mercury Web Parser从网页中提取干净的可读文本

文件大小:9KB

文件格式:ZIP

更新时间:2024-06-04 06:34:18

extract web-scraping reader readability cleaner

读者 通过从网页中提取干净的可读文本。 关于Mercury Web解析器的注释 Mercury Web Parser的创建者最初通过ReSTful API将其作为一项免费服务提供,但此后一直将其开源。 该API已于2019年4月15日关闭。要继续使用解析器,请使用或软件包管理器安装其命令行驱动程序: # Install Mercury globally yarn global add @postlight/mercury-parser # or npm -g install @postlight/mercury-parser 安装 克隆此存储库,创建虚拟环境,然后安装Python要求: $ python3 -m venv . ... $ source bin/activate (reader) $ pip install -r requirements.txt ... 用法


【文件预览】:
reader-master
----reader.py(4KB)
----requirements.txt(122B)
----LICENSE(1KB)
----README.md(30KB)
----mercury.py(2KB)
----.gitignore(1KB)

网友评论