以puppeteer抓取微指数,puppeteer基本示例,docker部署headless

时间:2022-12-20 19:28:47

还是直接上代码

https://github.com/cclient/weizhishu-puppeteer

根据关键字获取微博指数

早期版本以常规的构造cookie,token,sign的访问api的方式实现,因官方改版失效

移动端web逆向反而比桌面端简单,并没有涉及到token,sign,http请求方式已经实现,公司采用直接的http请求,代码就不方便公开了,一共也就不到100行。

这里主要是尝试另处一种思路,以headless的方式来实现(虽然没必要)

选型

phantomjs

之前写过些自动化工具,开发体验很差

主要缺点

  • 1:原生功能有限,又难以引入第三方包,要实现相对复杂的功能,成本很高,如需第三方包支持。

    • 1:引入第三方包需重新编译,小题大作;
    • 2:将系统功能拆分,如拆为c/s结构,原生作为s,需第三方包控制的部分统一集成在c中,这也是曾经选择的方式,因为逻辑被拆散了,开发上不是很直观。
  • 2:语法只支持es5,15,16年倒无所谓,现在则难以接受了,不支持async/await,开发效率低

electron

Electron is designed for UI applications and not for command-line applications.官方不推荐,服务端的场景也觉得过重,不方便在服务器上部署

chrome extensions

之前改写过网易有道的插件chrome-extensions-youdaowithwordnode

桌面写点辅助的小工具还好,但不适合在服务器上,或许有在服务器上执行的方案,会多花不少功夫

puppeteer

支持chrome-devtools-protocol的工具有不少,以前也用过一些,这里选择puppeteer,因为chrome官方支持

资料少,文档很精简

要实现的功能也很简单,简单浏览一遍文档,需要的功能都具备

实现起来很容易,开发时在https://try-puppeteer.appspot.com/就把功能实现完了

再拿到本地作个封装,工作就完成

开发效率上强过phantomjs和electron

最大的缺点反而不是开发,而是部署和服务管理,性能消耗较重,也会有额外的依赖,好在docker能减轻依赖问题,同时也会有些其他限制

如果对性能有要求,资源有限,还是得phantomjs

执行方式两种
  • launtch(默认方式)

    通过的本地的可执行文件启动chrome实例,在安装的Chrome的mac可以直接执行

getValByWord("世界杯")

  • 2 connect

    以chrome-devtools-protoco连接远程实例

    • 启动远程实例

    docker run -d -p 9222:9222 --name=chrome-headless alpeware/chrome-headless-trunk

    • 查看ws

    docker logs --tail 100 -f chrome-headless

    Looking for CA certificate in /data/certificates
    Keystore created
    Fontconfig warning: "/etc/fonts/fonts.conf", line 86: unknown element "blank"
    [0730/105014.373363:ERROR:gpu_process_transport_factory.cc(1007)] Lost UI shared context.
    DevTools listening on ws://0.0.0.0:9222/devtools/browser/49f5281e-8668-44f5-896f-ee2eee6553ab

    或 curl http://127.0.0.1:9222/json

    [ {
    "description": "",
    "devtoolsFrontendUrl": "/devtools/inspector.html?ws=127.0.0.1:9222/devtools/page/9C81EA41D18B2C20EDC5982B476FF20C",
    "id": "9C81EA41D18B2C20EDC5982B476FF20C",
    "title": "about:blank",
    "type": "page",
    "url": "about:blank",
    "webSocketDebuggerUrl": "ws://127.0.0.1:9222/devtools/page/9C81EA41D18B2C20EDC5982B476FF20C"
    } ]

    ws://127.0.0.1:9222/devtools/page/9C81EA41D18B2C20EDC5982B476FF20C 和 ws://0.0.0.0:9222/devtools/browser/49f5281e-8668-44f5-896f-ee2eee6553ab都可以

    getValByWord("世界杯","ws://0.0.0.0:9222/devtools/page/9C81EA41D18B2C20EDC5982B476FF20C")