hh-page-classifier:无头骑士页面分类器服务

时间:2024-06-05 10:03:14
【文件属性】:

文件名称:hh-page-classifier:无头骑士页面分类器服务

文件大小:41KB

文件格式:ZIP

更新时间:2024-06-05 10:03:14

Python

无头骑士页面分类器 它通过kafka队列从Sitehound(以前是The Headless Horseman,或THH)获取页面及其标签,训练模型,然后发送模型和一些质量报告。 然后,THH的用户可能会标记更多页面,从而使分类器可以达到更高的准确性。 传入消息示例: { "id": "some id that will be returned in the answer message", "pages": [ { "url": "http://example.com", "html": "

hi

", "relevant": true }, { "url": "http://example.com/1", "html": "

hi 1

", "rele


【文件预览】:
hh-page-classifier-master
----Dockerfile(286B)
----.gitignore(79B)
----setup.cfg(26B)
----README.rst(5KB)
----tests()
--------test_service.py(5KB)
--------test_train.py(7KB)
--------__init__.py(0B)
----.dockerignore(70B)
----.coveragerc(20B)
----scripts()
--------kafka-push.py(958B)
----requirements.txt(252B)
----LICENSE.txt(1KB)
----notebooks()
--------dmoz_sklearn.ipynb(7KB)
--------dmoz_fasttext.ipynb(14KB)
----setup.py(1KB)
----hh_page_clf()
--------pretraining()
--------models.py(16KB)
--------service.py(8KB)
--------train.py(25KB)
--------format_meta.py(1KB)
--------utils.py(2KB)
--------__init__.py(0B)
--------templates()

网友评论