文件名称:domextract:用于日本网站的基于DOM的Web内容提取器
文件大小:3.26MB
文件格式:ZIP
更新时间:2024-02-24 19:01:13
natural-language-processing scikit-learn information-extraction web-extraction scikit-learnHTML
提取物 用于日本网站的基于DOM的Web内容提取器。 此工具使用随机森林提取文章内容。 制备 您需要安装MeCab。 git clone https://github.com/taku910/mecab && \ cd mecab/mecab && \ ./configure --enable-utf8-only && \ make && \ make check && \ make install && \ pip install --no-cache-dir mecab-python3 && \ ldconfig && \
【文件预览】:
domextract-master
----setup.py(495B)
----.gitignore(53B)
----LICENSE(1KB)
----README.md(3KB)
----domextract()
--------columns.txt(282B)
--------english(936B)
--------fe_dom.py(9KB)
--------__init__.py(461B)
--------rf_dom.pkl(21.55MB)
--------dom_extract.py(3KB)
--------xpath_soup.py(1KB)
--------japanese(1006B)
----test()
--------test.html(33KB)
--------testdata.csv(101KB)
--------check.py(511B)
--------testdata2.csv(101KB)
--------run.sh(64B)
--------test1.py(123B)