domextract：用于日本网站的基于DOM的Web内容提取器下载

【文件属性】：

文件名称：domextract：用于日本网站的基于DOM的Web内容提取器

文件大小：3.26MB

文件格式：ZIP

更新时间：2024-02-24 19:01:13

natural-language-processing scikit-learn information-extraction web-extraction scikit-learnHTML

提取物用于日本网站的基于DOM的Web内容提取器。此工具使用随机森林提取文章内容。制备您需要安装MeCab。 git clone https://github.com/taku910/mecab && \ cd mecab/mecab && \ ./configure --enable-utf8-only && \ make && \ make check && \ make install && \ pip install --no-cache-dir mecab-python3 && \ ldconfig && \

立即下载

【文件预览】：
domextract-master
----setup.py(495B)
----.gitignore(53B)
----LICENSE(1KB)
----README.md(3KB)
----domextract()
--------columns.txt(282B)
--------english(936B)
--------fe_dom.py(9KB)
--------__init__.py(461B)
--------rf_dom.pkl(21.55MB)
--------dom_extract.py(3KB)
--------xpath_soup.py(1KB)
--------japanese(1006B)
----test()
--------test.html(33KB)
--------testdata.csv(101KB)
--------check.py(511B)
--------testdata2.csv(101KB)
--------run.sh(64B)
--------test1.py(123B)

秒客网

domextract：用于日本网站的基于DOM的Web内容提取器

网友评论

相关文章