Scrapyd 改进第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出现中文乱码

0.问题现象和原因

如下图所示，由于 Scrapyd 的 Web Interface 的 log 链接直接指向 log 文件，Response Headers 的 Content-Type 又没有声明字符集 charset=UTF-8，因此通过浏览器查看 log 会出现非 ASCII 乱码。

1.解决思路

(1) 如下图所示，在 Jobs 页面添加带有项目信息的 UTF-8 超链接，如 http://127.0.0.1:6800/logs/UTF-8.html?project=proxy&spider=test&job=cd2cc82a87f111e8ac72b827ebc33e0b

(2) 在 Scrapyd 的 logs 目录新建 UTF-8.html，通过 <meta charset="UTF-8"> 声明编码

(3) 新页面打开超链接后，通过 JS 获取 url 查询对，然后更新 UTF-8.html 页面的 iframe 的 src 属性，如 <iframe src="/logs/proxy/test/9a7ee91287f111e8ac72b827ebc33e0b.log" width="100%" height="100%"></iframe>

(4) 浏览器自动加载 iframe 获取 log 文件

Scrapyd 改进第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出现中文乱码

2.修改 Scrapyd 代码

/site-packages/scrapyd/website.py

改动位置：

(1) table 添加最后一列，见红色代码

    def render(self, txrequest):

        cols = 9 ######## 8

        s = "<html><head><meta charset='UTF-8'><title>Scrapyd</title></head>"

        s += "<body>"

        s += "<h1>Jobs</h1>"

        s += "<p><a href='..'>Go back</a></p>"

        s += "<table border='1'>"

        s += "<tr><th>Project</th><th>Spider</th><th>Job</th><th>PID</th><th>Start</th><th>Runtime</th><th>Finish</th><th>Log</th>"

        if self.local_items:

            s += "<th>Items</th>"

            #cols = 9 ########

            cols += 1 ########

(2) 有两处需要添加 UTF-8 超链接，分别对应 Running 和 Finished，见红色代码

            s += "<td><a href='/logs/%s/%s/%s.log'>Log</a></td>" % (p.project, p.spider, p.job)

            s += "<td><a href='/logs/UTF-8.html?project=%s&spider=%s&job=%s' target='_blank'>UTF-8</a></td>" % (p.project, p.spider, p.job) ########

(3) 完整代码：

from datetime import datetime

import socket

from twisted.web import resource, static

from twisted.application.service import IServiceCollection

from scrapy.utils.misc import load_object

from .interfaces import IPoller, IEggStorage, ISpiderScheduler

from six.moves.urllib.parse import urlparse

class Root(resource.Resource):

    def __init__(self, config, app):

        resource.Resource.__init__(self)

        self.debug = config.getboolean('debug', False)

        self.runner = config.get('runner')

        logsdir = config.get('logs_dir')

        itemsdir = config.get('items_dir')

        local_items = itemsdir and (urlparse(itemsdir).scheme.lower() in ['', 'file'])

        self.app = app

        self.nodename = config.get('node_name', socket.gethostname())

        self.putChild(b'', Home(self, local_items))

        if logsdir:

            self.putChild(b'logs', static.File(logsdir.encode('ascii', 'ignore'), 'text/plain'))

        if local_items:

            self.putChild(b'items', static.File(itemsdir, 'text/plain'))

        self.putChild(b'jobs', Jobs(self, local_items))

        services = config.items('services', ())

        for servName, servClsName in services:

          servCls = load_object(servClsName)

          self.putChild(servName.encode('utf-8'), servCls(self))

        self.update_projects()

    def update_projects(self):

        self.poller.update_projects()

        self.scheduler.update_projects()

    @property

    def launcher(self):

        app = IServiceCollection(self.app, self.app)

        return app.getServiceNamed('launcher')

    @property

    def scheduler(self):

        return self.app.getComponent(ISpiderScheduler)

    @property

    def eggstorage(self):

        return self.app.getComponent(IEggStorage)

    @property

    def poller(self):

        return self.app.getComponent(IPoller)

class Home(resource.Resource):

    def __init__(self, root, local_items):

        resource.Resource.__init__(self)

        self.root = root

        self.local_items = local_items

    def render_GET(self, txrequest):

        vars = {

            'projects': ', '.join(self.root.scheduler.list_projects())

        }

        s = """

<html>

<head><meta charset='UTF-8'><title>Scrapyd</title></head>

<body>

<h1>Scrapyd</h1>

<p>Available projects: <b>%(projects)s</b></p>

<ul>

<li><a href="/jobs">Jobs</a></li>

""" % vars

        if self.local_items:

            s += '<li><a href="/items/">Items</a></li>'

        s += """

<li><a href="/logs/">Logs</a></li>

<li><a href="http://scrapyd.readthedocs.org/en/latest/">Documentation</a></li>

</ul>

<h2>How to schedule a spider?</h2>

<p>To schedule a spider you need to use the API (this web UI is only for

monitoring)</p>

<p>Example using <a href="http://curl.haxx.se/">curl</a>:</p>

<p><code>curl http://localhost:6800/schedule.json -d project=default -d spider=somespider</code></p>

<p>For more information about the API, see the <a href="http://scrapyd.readthedocs.org/en/latest/">Scrapyd documentation</a></p>

</body>

</html>

""" % vars

        return s.encode('utf-8')

class Jobs(resource.Resource):

    def __init__(self, root, local_items):

        resource.Resource.__init__(self)

        self.root = root

        self.local_items = local_items

    def render(self, txrequest):

        cols = 9 ######## 8

        s = "<html><head><meta charset='UTF-8'><title>Scrapyd</title></head>"

        s += "<body>"

        s += "<h1>Jobs</h1>"

        s += "<p><a href='..'>Go back</a></p>"

        s += "<table border='1'>"

        s += "<tr><th>Project</th><th>Spider</th><th>Job</th><th>PID</th><th>Start</th><th>Runtime</th><th>Finish</th><th>Log</th>"

        if self.local_items:

            s += "<th>Items</th>"

            #cols = 9 ########

            cols += 1 ########

        s += "</tr>"

        s += "<tr><th colspan='%s' style='background-color: #ddd'>Pending</th></tr>" % cols

        for project, queue in self.root.poller.queues.items():

            for m in queue.list():

                s += "<tr>"

                s += "<td>%s</td>" % project

                s += "<td>%s</td>" % str(m['name'])

                s += "<td>%s</td>" % str(m['_job'])

                s += "</tr>"

        s += "<tr><th colspan='%s' style='background-color: #ddd'>Running</th></tr>" % cols

        for p in self.root.launcher.processes.values():

            s += "<tr>"

            for a in ['project', 'spider', 'job', 'pid']:

                s += "<td>%s</td>" % getattr(p, a)

            s += "<td>%s</td>" % p.start_time.replace(microsecond=0)

            s += "<td>%s</td>" % (datetime.now().replace(microsecond=0) - p.start_time.replace(microsecond=0))

            s += "<td></td>"

            s += "<td><a href='/logs/%s/%s/%s.log'>Log</a></td>" % (p.project, p.spider, p.job)

            s += "<td><a href='/logs/UTF-8.html?project=%s&spider=%s&job=%s' target='_blank'>UTF-8</a></td>" % (p.project, p.spider, p.job) ########

            if self.local_items:

                s += "<td><a href='/items/%s/%s/%s.jl'>Items</a></td>" % (p.project, p.spider, p.job)

            s += "</tr>"

        s += "<tr><th colspan='%s' style='background-color: #ddd'>Finished</th></tr>" % cols

        for p in self.root.launcher.finished:

            s += "<tr>"

            for a in ['project', 'spider', 'job']:

                s += "<td>%s</td>" % getattr(p, a)

            s += "<td></td>"

            s += "<td>%s</td>" % p.start_time.replace(microsecond=0)

            s += "<td>%s</td>" % (p.end_time.replace(microsecond=0) - p.start_time.replace(microsecond=0))

            s += "<td>%s</td>" % p.end_time.replace(microsecond=0)

            s += "<td><a href='/logs/%s/%s/%s.log'>Log</a></td>" % (p.project, p.spider, p.job)

            s += "<td><a href='/logs/UTF-8.html?project=%s&spider=%s&job=%s' target='_blank'>UTF-8</a></td>" % (p.project, p.spider, p.job) ########

            if self.local_items:

                s += "<td><a href='/items/%s/%s/%s.jl'>Items</a></td>" % (p.project, p.spider, p.job)

            s += "</tr>"

        s += "</table>"

        s += "</body>"

        s += "</html>"

        txrequest.setHeader('Content-Type', 'text/html; charset=utf-8')

        txrequest.setHeader('Content-Length', len(s))

        return s.encode('utf-8')

3.新建 UTF-8.html 页面

根据 http://scrapyd.readthedocs.io/en/stable/config.html 确定 Scrapyd 所使用的 logs_dir，在该目录下添加如下文件 UTF-8.html

<html>

<head><meta charset="UTF-8"></head>

<iframe src="" width="100%" height="100%"></iframe>

<script>

function parseQueryString(url) {

    var urlParams = {};

    url.replace(

        new RegExp("([^?=&]+)(=([^&]*))?", "g"),

        function($0, $1, $2, $3) {

            urlParams[$1] = $3;

        }

    );

    return urlParams;

}

var kwargs = parseQueryString(location.search);

document.querySelector('iframe').src = "/logs/" + kwargs.project + '/' + kwargs.spider + '/' + kwargs.job + '.log'

</script>

<html>

4.实现效果

Scrapyd 改进第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出现中文乱码

Scrapyd 改进第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出现中文乱码的更多相关文章

Scrapyd 改进第二步&colon; Web Interface 添加 STOP 和 START 超链接, 一键调用 Scrapyd API
0.提出问题 Scrapyd 提供的开始和结束项目的API如下,参考 Scrapyd 改进第一步: Web Interface 添加 charset=UTF-8, 避免查看 log 出现中文乱码,准备 ...
zabbix客户端的安装、zabbix主被动模式、添加主机模板等、处理页面的中文乱码
1.zabbix客户端的安装: 如下步骤: wget repo.zabbix.com/zabbix/3.2/rhel/7/x86_64/zabbix-release-3.2-1.el7.noarch. ...
关于web&period;xml中配置Spring字符编码过滤器以解决中文乱码的问题
当出现中文乱码问题,Spring中可以利用CharacterEncodingFilter过滤器解决,如下代码所示:  < ...
form 表单添加 enctype =&quot&semi;multipart/form-data&quot&semi; 属性后后台接收中文乱码
解决办法: new String( request.getParameter("title").getBytes("ISO-8859-1"),"utf ...
第一讲从头开始做一个web qq 机器人，第一步获取smart qq二维码
新手教程: 前言:最近在看了一下很久很久以前做的qq机器人失效了,最近也在换工作目前还在职,时间很挺宽裕的.就决定从新搞一个web qq机器人 PC的协议解析出来有点费时间以后再做. 准备工作: 编译 ...
零代码第一步，做个添加数据的服务先。node&period;js + mysql
node.js + mysql 实现数据添加的功能.万事基于服务! 增删改查之添加数据. 优点:只需要设置一个json文件,就可以实现基本的添加功能,可以视为是零代码. 添加数据的服务实现的功能: 1 ...
Blazor client-side + webapi （&period;net core 3&period;1）添加jwt验证流程（非host）第一步
第一步,设置并检查CROS跨域请求因为我们并不打算将Blazor 由webapi来进行host,所以Blazor和api将是两个域名,这样操作即方便以后单独使用Blazor来写前端,但后端采用已有或 ...
linux系统性能调优第一步——性能分析(vmstat)
linux系统性能调优第一步--性能分析(vmstat) 分类: LINUX 性能调优的第一步是性能分析,下面从性能分析着手进行一些介绍,尤其对linux性能分析工具vmstat的用法和实践进行详细介 ...
[EntLib]微软企业库5&period;0 学习之路——第一步、基本入门
话说在大学的时候帮老师做项目的时候就已经接触过企业库了但是当初一直没明白为什么要用这个,只觉得好麻烦啊,竟然有那么多的乱七八糟的配置(原来我不知道有配置工具可以进行配置,请原谅我的小白). 直到去年在 ...

随机推荐

hrbust1279
http://acm.hrbust.edu.cn/index.php?m=ProblemSet&a=showProblem&problem_id=1279 int main() { l ...
[转]Windows系统中监控文件复制操作的几种方式
1. ICopyHook 作用: 监视文件夹和打印机移动,删除, 重命名, 复制操作. 可以得到源和目标文件名. 可以控制拒绝操作. 缺点: 不能对文件进行控制. 只对Shell文件操作有效, 对原生 ...
Linq的简单查询
Ling的简单查询,记在这里防止忘记,以便随时能够查看 List<int> intArr = new List<int>(); || i == select i; List&l ...
iOS AFNetWorking源码详解（一）
来源:Yuzeyang 链接:http://zeeyang.com/2016/02/21/AFNetWorking-one/ 首先来介绍下AFNetWorking,官方介绍如下: AFNetworki ...
14&period;2&period;5&period;1 Role of the &period;frm File for InnoDB Tables InnoDB &period;frm文件的作用
14.2.5.1 Role of the .frm File for InnoDB Tables: 14.2.5.1 Role of the .frm File for InnoDB Tables I ...
NEST&period;net Client
NEST.net Client For Elasticsearch简单应用由于最近的一个项目中的搜索部分要用到 Elasticsearch 来实现搜索功能,苦于英文差及该方面的系统性资料不好找,在实 ...
spring boot + vue + element-ui全栈开发入门——集成element-ui
一.IDE开发工具常用的开发工具有webstorm和sublime. 我个人喜好用Atom+插件的形式打开Atom,在file --> settings --> packages中收 ...
混合开发 Hybird Cordova PhoneGap web 跨平台 MD
Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱 MyAndroidBlogs baiqiantao baiqiantao bqt20094 baiqiantao@sina ...
我的Java学习笔记-Java面向对象
今天来学习Java的面向对象特性,由于与C#的面向对象类似,不需详细学习一.Java继承继承可以使用 extends 和 implements 这两个关键字来实现继承. extends:类的继承是 ...
2016-the brave never die
2016年最后一天工作日了,由于这段时间一直忙于春节项目没时间写点关于2016年的总结,回忆一下,2016年其实还有很多事情没做好,究其原因,感觉是因为对于2016年没有做任何的规划和计划,就凭着一股 ...