body_text_extraction:基于DOM树HTML正文文本提取

时间:2024-06-15 03:15:05
【文件属性】:

文件名称:body_text_extraction:基于DOM树HTML正文文本提取

文件大小:5KB

文件格式:ZIP

更新时间:2024-06-15 03:15:05

Python

#BodyTextExtraction基于DOM的启发式算法,用于从HTML提取正文。 参考: 用法 from body_text_extraction import BodyTextExtraction bte = BodyTextExtraction () text = bte . extract ( html )


【文件预览】:
body_text_extraction-master
----setup.py(814B)
----.gitignore(682B)
----requirements.txt(51B)
----MANIFEST.in(0B)
----setup.cfg(0B)
----README.md(313B)
----body_text_extraction()
--------__init__.py(8KB)
--------VERSION(6B)

网友评论