本文实例讲述了Python3实现将本地JSON大数据文件写入MySQL数据库的方法。分享给大家供大家参考,具体如下:
最近导师给了一个yelp上的评论数据,数据量达到3.55个G,如果进行分析时直接使用本地文件,选择python来分析,那么效率是非常低的;另一方面使用SQL来储存文本文件最为安全,之前使用CSV,txt存储的文本文件最后莫名其妙地出现一些奇怪字符,导致读取数据分割时出现错乱。下面给出一个简单的代码,将本地JSON文件内容存入数据库。
说明:python版本为3.5,使用第三方库为pymysql。因为数据量比较大,不能一次性读取到内存(否则内存报错),这里使用逐行读取的方式。数据库先创建后再使用以下代码;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
|
import json
import pymysql
# 读取review数据,并写入数据库
# 导入数据库成功,总共4736897条记录
def prem(db):
cursor = db.cursor()
cursor.execute( "SELECT VERSION()" )
data = cursor.fetchone()
print ( "Database version : %s " % data) # 结果表明已经连接成功
cursor.execute( "DROP TABLE IF EXISTS review" ) # 习惯性
sql = """CREATE TABLE review (
review_id VARCHAR(100),
user_id VARCHAR(100),
business_id VARCHAR(200),
stars INT,
text VARCHAR(10000) NOT NULL,
useful INT,
funny INT,
cool INT)"""
cursor.execute(sql) # 根据需要创建一个表格
def reviewdata_insert(db):
with open ( 'E:/data/yelp_data/dataset/review.json' , encoding = 'utf-8' ) as f:
i = 0
while True :
i + = 1
print (u '正在载入第%s行......' % i)
try :
lines = f.readline() # 使用逐行读取的方法
review_text = json.loads(lines) # 解析每一行数据
result = []
result.append((review_text[ 'review_id' ], review_text[ 'user_id' ], review_text[ 'business_id' ],review_text[ 'stars' ], review_text[ 'text' ], review_text[ 'useful' ],
review_text[ 'funny' ], review_text[ 'cool' ]))
print (result)
inesrt_re = "insert into review(review_id, user_id, business_id, stars, text, useful, funny, cool) values (%s, %s, %s, %s,%s, %s,%s, %s)"
cursor = db.cursor()
cursor.executemany(inesrt_re, result)
db.commit()
except Exception as e:
db.rollback()
print ( str (e))
break
if __name__ = = "__main__" : # 起到一个初始化或者调用函数的作用
db = pymysql.connect( "localhost" , "root" , "password(你的密码)" , "数据库名称" , charset = 'utf8' )
cursor = db.cursor()
prem(db)
reviewdata_insert(db)
cursor.close()
|
希望本文所述对大家Python程序设计有所帮助。
原文链接:https://blog.csdn.net/layman2016/article/details/79252499