前言:
这期间有研究了Django网页制作过程中,如何将数据批量导入到数据库中.
这个过程真的是惨不忍睹,犯了很多的低级错误,这会在正文中说到的.再者导入数据用的是py脚本,脚本内容参考至自强学堂--中级教程--数据导入.
注:本文主要介绍自己学习的经验总结,而非教程!
正文:首先说明采用Django中bulk_create()函数来实现数据批量导入功能,为什么会选择它呢?
1 bulk_create()是执行一条SQL存入多条数据,使得导入速度更快;
2 bulk_create()减少了SQL语句的数量;
然后,我们准备需要导入的数据源,数据源格式可以是xls,csv,txt等文本文档;
最后,编写py脚本,运行即可!
py脚本如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
|
#coding:utf-8
import os
os.environ.setdefault( "DJANGO_SETTINGS_MODULE" , "www.settings" )
'''
Django 版本大于等于1.7的时候,需要加上下面两句
import django
django.setup()
否则会抛出错误 django.core.exceptions.AppRegistryNotReady: Models aren't loaded yet.
'''
import django
import datetime
if django.VERSION > = ( 1 , 7 ): #自动判断版本
django.setup()
from keywork.models import LOrder
f = open ( 'cs.csv' )
WorkList = []
next (f) #将文件标记移到下一行
for line in f:
parts = line.replace( '"' ,'') #将字典中的"替换空
parts = parts.split( ';' ) #按;对字符串进行切片
WorkList.append(LOrder(serv_id = parts[ 0 ], serv_state_name = parts[ 1 ], acct_code = parts[ 2 ], acct_name = parts[ 3 ], acc_nbr = parts[ 4 ], user_name = parts[ 5 ],
frod_addr = parts[ 6 ], mkt_chnl_name = parts[ 7 ],mkt_grid_name = parts[ 8 ], com_chnl_name = parts[ 9 ],com_grid_name = parts[ 10 ],
product_name = parts[ 11 ],access_name = parts[ 12 ], completed_time = parts[ 13 ],remove_data = parts[ 14 ], service_offer_name = parts[ 15 ],
org_name = parts[ 16 ], staff_name = parts[ 17 ],staff_code = parts[ 18 ], handle_time = parts[ 19 ],finish_time = parts[ 20 ],
prod_offer_name = parts[ 21 ],eff_date = parts[ 22 ], exp_date = parts[ 23 ],main_flag = parts[ 24 ], party_name = parts[ 25 ]
)
)
f.close()
LOrder.objects.bulk_create(WorkList)
|
根据上面py脚本源代码主要来说说自己学习过程中遇见的问题
问题1:需要导入的数据源中其第一行一般是字段名,从第二行开始才是数据,所以在脚本利用next(f)将文本标记移到第二行进行操作,不然会出现问题,比如字段名一般为英文,默认是字符串格式化,脚本执行就会遇见ValidationError:YYYY-MM-DD HH:MM[:ss[.uuuuuu]][TZ]这种models数据格式与导入数据格式不相符合的错误!
问题2:注意parts = parts.split(';') #按;对字符串进行切片该语句,因为我们导入数据每一行中的每列数据之间有间隔符,例如csv中逗号,xls中空格等各种文本默认间隔符号,split函数使用实例如下:
以下实例展示了split()函数的使用方法:
1
2
3
4
5
|
#!/usr/bin/python
str = "Line1-abcdef \nLine2-abc \nLine4-abcd" ;
print str .split( );
print str .split( ' ' , 1 );
|
以上实例输出结果如下:
['Line1-abcdef', 'Line2-abc', 'Line4-abcd']
['Line1-abcdef', '\nLine2-abc \nLine4-abcd']
问题3:如果导入数据源超过10M,然后数据库默认最大10M,那么上面脚本运行不会成功.以mysql为例,若导入数据大小超过数据设置,那么会报2006 go away错误,需要在mysql中的my.ini中的[mysqld]下加入下列语句:
1
2
3
|
max_allowed_packet = 300M - - 最大允许包大小 300M
wait_timeout = 200000 - - 连接时间 200000s
interactive_timeout = 200000 - - 断开时间 200000s
|
以上就是本文的全部内容,希望对大家学习python批量导入数据有所帮助。