文件名称:paywall-classify:将URI的缩略图分类为付费专区或内容
文件大小:26KB
文件格式:ZIP
更新时间:2024-05-30 07:40:25
Python
付费墙分类 一个基于tensorflow和puppeteer的应用程序,它获取URI列表(每个请求最多10个),收集每个站点的缩略图屏幕截图,然后对所请求的URI是付费专区还是内容页面进行分类。 安装 该应用程序利用Python 3(tensorflow)和Nodejs 8(puppeteer),因此建议使用Docker构建该应用程序。 要生成图像: $ docker build -t paywall-classify . 要运行服务器: $ docker run -it --rm -p 5000:5000 paywall-classify 然后可以从以下地址访问服务器:http: : 。 数据 用于训练图像分类器的图像包含在Docker映像构建中,但也可以在以下位置找到: : 。 它由122个paywall_page图片和119个content_page图片组成。
【文件预览】:
paywall-classify-master
----.gitignore(2KB)
----Dockerfile(2KB)
----templates()
--------index.html(2KB)
--------404.html(222B)
----package.json(54B)
----requirements.txt(17B)
----train.sh(439B)
----LICENSE(1KB)
----screenshots()
--------.gitkeep(0B)
----static()
--------style.css(3KB)
--------req.js(2KB)
----README.md(861B)
----njs()
--------screenshot.js(1KB)
----tf_scripts()
--------retrain.py(53KB)
--------label_image.py(4KB)
----app.py(2KB)