首先自己的电脑上或服务器上要有MySQL数据库,可以是各种产品软件。
另外自己要会数据库的基本操作,创建数据库、创建表、添加数据、修改数据、删除数据、查询数据等,可以用SQL语句去操作,也可以用图形化界面去操作,不过SQL语句还是要掌握的,比较重要。
在进行网络数据采集时,处理Unicode字符串是很痛苦的事情。默认情况下,MySQL也不支持Unicode字符处理。不过你可以设置这个功能(这么做会增加数据库的占用空间)。但是为了处理,只能一开始就让数据库支持Unicode:
# 这四行语句改变的内容有:数据库、数据表,以及两个字段的默认编码都从utf8mb4
# (严格说来也属于Unicode,但是对大多数Unicode字符的支持都非常不好)转变成了
# utf8mb4_unicode_ci(支持中文)。
# ALTER DATABASE scraping CHARACTER SET= utf8mb4 COLLATE= utf8mb4_unicode_ci;
# ALTER TABLE pages CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# ALTER TABLE pages CHANGE title title VARCHAR(200) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
# ALTER TABLE pages CHANGE content content VARCHAR(10000) CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;
可以用SQL语句插入一些汉语字符到某些字段中,如果不出错,就表示转换成功了。