接续 :
上篇"Oracle利用exp和imp,数据泵impdp和expdp导入导出数据,spool导出数据":https://mp.csdn.net/postedit/83795172
Oracle数据导出工具sqluldr2可以将数据以csv、txt等文件格式导出,适用于大批量数据的导出,导出速度非常快,导出后可以使用Oracle SQL Loader(sqlldr)工具将数据导入到数据库中。下面将介绍Sqluldr2和sqlldr在Windows平台下的数据处理过程。
简介:
Sqluldr2:专业用于大数据量导出工具之一,效率比普通导出快70%。 ( Sqlldr:专业用于导入的工具之一,请注意两个工具的区别。),在使用时,最好用磁盘写入速度快,网络好,网速快的做。
工具列表:
针对不同平台用不同的导出工具:
Windows: sqluldr2.exe
Linux(32位): sqluldr2_linux32_10204.bin
Linux(64位): sqluldr2_linux64_10204.bin
文件内容如下图所示:
sqluldr2 主要参数说明
Field 分隔符 指定字段分隔符,默认为逗号
record 分隔符 指定记录分隔符,默认为回车换行,Windows下的换行
quote 引号符 指定非数字字段前后的引号符
log 日志文件存放路径
file 导出文件存放路径
query 查询语句
例如现在要改变默认的字段分隔符,用“#”来分隔记录,导出的命令如下所示:
sqluldr2 test/test sql=tmp.sql field=#
在指定分隔符时,可以用字符的ASCII代码(0xXX,大写的XX为16进制的ASCII码值)来指定一个字符,常用的字符的ASCII代码如下:
回车=0x0d,换行=0x0a,TAB键=0x09,|=0x7c,&=0x26,双引号=0x22,单引号=0x27 ^=0x5e
在选择分隔符时,一定不能选择会在字段值中出现的字符组合,如常见的单词等,很多次导入时报错,回过头来找原因时,都发现是因为分隔符出现在字段值中了。
1.window环境
1.1 sqluldr2 使用方法
1)首先将sqluldr2.exe复制到执行目录下,即可开始使用
2)查看help 帮助
3)执行数据导出命令
3.1) 常规导出
sqluldr2 test/[email protected]/orcl query="select * from temp_001" head=yes file=d:\tmp001.csv
说明:head=yes 表示输出表头
3.2)使用sql参数
sqluldr2 test/[email protected]/orcl sql=test_sql.sql head=yes file=d:\tmp001.csv
test_sql的内容为:
select * from temp_001
3.3)使用log参数
当集成sqluldr2在脚本中时,就希望屏蔽上不输出这些信息,但又希望这些信息能保留,这时可以用“LOG”选项来指定日志文件名。
sqluldr2 test/[email protected]/orcl sql=test_sql.sql head=yes file=d:\tmp001.csv log=+d:\tmp001.log
3.4)使用 table 参数
当使用 table 参数时,在目录下会生成对应的ctl控制文件,如下语句会生成temp_001_sqlldr.ctl文件。
sqluldr2 test/[email protected]/orcl query="select * from temp_001" table=temp_001 head=yes file=d:\tmp001.csv
生成的控制文件temp_001_sqlldr.ctl的内容如下:
1.2 sqlldr 使用方法
sqlldr工具可以将文本数据导入到数据库表中,
1)查看sqlldr 的帮助文档
2)创建测试文件
在D盘根目录下创建测试文件tmp_insert.txt ,其内容如下:
PROD_ID,ACC_NUM
18283918,18762535162
12361527,18482762831
3)创建控制文件tmp_insert01.ctl
内容如下:
options(direct=true,errors=10000000,skip=1)
load data
characterset zhs16gbk
into table temp_001 truncate
fields terminated by ',' optionally enclosed by '"'
trailing nullcols
(
prod_id "trim(:prod_id)",
acc_num "trim(:acc_num)"
)
参数说明:
characterset :字符集, 一般使用字符集 AL32UTF8,如果出现中文字符集乱码时,改成 ZHS16GBK。
fields terminated by 'string':文本列分隔符。当为tab键时,改成'\t',或者 X'09';空格分隔符 whitespace,换行分隔符 '\n' 或者 X'0A';回车分隔符 '\r' 或者 X'0D';默认为'\t'。
optionally enclosed by 'char':字段包括符。当为 ' ' 时,不把字段包括在任何引号符号中;当为 "'" 时,字段包括在单引号中;当为'"'时,字段在包括双引号中;默认不使用引用符。
fields escaped by 'char':转义字符,默认为'\'。
trailing nullcols:表字段没有对应的值时,允许为空。
insert:为缺省方式,在数据装载开始时要求表为空;
append:在表中追加新记录 ;
replace:删除旧记录,替换成新装载的记录 ;
truncate:先清空表,再添加记录;
skip=1 :表示插入数据时,跳过第一行(标题),从第二行开始导入;
4)执行数据导入处理
sqlldr test/[email protected]/orcl data=d:\tmp_insert.txt control=d:\tmp_insert01.ctl log=d:\tmp_insert01.log bad=d:\tmp_insert01.bad
注意:在数据导入数据库表后,查询表数据时,会发现最后一个字段的数据中含有类似空格的字符,其实不是空格,是回车换行符,通过replace函数将其替换掉即可,如下红色部分处理
options(direct=true,errors=10000000,skip=1)
load data
characterset zhs16gbk
into table temp_001 truncate
fields terminated by ',' optionally enclosed by '"'
trailing nullcols
(
prod_id char(32) "trim(:prod_id)",
acc_num char(20) "replace(:acc_num,chr(13),'')"
)
5)支持定义的数据类型
可以定义14种数据类型:
CHAR
DATE
DECIMAL EXTERNAL
DECIMAL
DOUBLE
FLOAT
FLOAT EXTERNAL
GRAPHIC EXTERNAL
INTEGER
INTEGER EXTERNAL
SMALLINT
VARCHAR
VARGRAPHIC
a.字符类型数据
CHAR[ (length)] [delimiter]
length缺省为 1.
b.日期类型数据
DATE [ ( length)]['date_format' [delimiter]
使用to_date函数来限制。
c.字符格式中的十进制
DECIMAL EXTERNAL [(length)] [delimiter]
用于常规格式的十进制数(不是二进制=> 一个位等于一个bit)。
d.压缩十进制格式数据
DECIMAL (digtial [,precision])
e.双精度符点二进制
DOUBLE
f.普通符点二进制
FLOAT
g.字符格式符点数
FLOAT EXTERNAL [ (length) ] [delimiter]
h.双字节字符串数据
GRAPHIC [ (legth)]
i.双字节字符串数据
GRAPHIC EXTERNAL[ (legth)]
j.常规全字二进制整数
INTEGER
k.字符格式整数
INTEGER EXTERNAL
l.常规全字二进制数据
SMALLINT
m.可变长度字符串
VARCHAR
n.可变双字节字符串数据
VARGRAPHIC
6)常见错误示例
SQL*Loader-601: For INSERT option, table must be empty.
这时需要,更改为追加(append)方式加载数据。
创建控制文件tmp_insert01.ctl,内容如下:
OPTIONS(DIRECT=TRUE,ERRORS=10000000,skip=1)
LOAD DATA
--INFILE 'd:\tmp_insert.txt'
CHARACTERSET AL32UTF8
APPEND INTO TABLE TEMP_001
FIELDS TERMINATED BY ',' OPTIONALLY ENCLOSED BY '"'
TRAILING NULLCOLS
(
PROD_ID "TRIM(:PROD_ID)",
ACC_NUM "TRIM(:ACC_NUM)"
)
2.Linux环境
2.1 sqluldr2 使用方法
(1)安装步骤
1)复制sqluldr2_linux32_10204.bin(64位系统用sqluldr2_linux64_10204.bin)到$ORACLE_HOME的bin目录,重命名为sqluldr2.bin
2)修改 $HOME目录下.bash_profile 增加如下环境变量
export LD_LIBRARY_PATH=$ORACLE_HOME/bin:$ORACLE_HOME/lib:/lib:/usr/lib
3)验证
-bash-3.2$ sqluldr2.bin
(2)执行数据导出命令
sqluldr2.bin test/[email protected]/orcl query="select * from temp_001" table=temp_001 file=/home/test/tmp001.csv
log=/home/test/tmp001.log filed=0x5e0x7c charset=AL32UTF8
(3)使用sh脚本sqluldr2_csv.sh导出。内容如下:
#!/bin/bash
source /home/oracle/.bash_profile
sqluldr2.bin test/[email protected]/orcl query="select * from temp_001" table=temp_001 file=/home/test/tmp001.csv
log=/home/test/tmp001.log filed=0x5e0x7c charset=AL32UTF8
echo 'finished'
2.2 Sqlldr用法
(1)执行脚本t37_party_curr_.sh,所在目录/aml/shell:
sqlldr aml/[email protected] control=/aml/shell/t37_party_curr.ctl log=/aml/shell/log/t37_party_curr_.log bad=/aml/shell/bad/t37_party_curr_.bad
命令参数:
userid -- Oracle 的 username/password[@servicename]
control -- 控制文件,可能包含表的数据
log -- 记录导入时的日志文件,默认为 控制文件(去除扩展名).log
bad -- 坏数据文件,默认为 控制文件(去除扩展名).bad
data -- 数据文件,一般在控制文件中指定。用参数控制文件中不指定数据文件更适于自动操作
errors -- 允许的错误记录数,可以用他来控制一条记录都不能错
rows -- 多少条记录提交一次,默认为 64
skip -- 跳过的行数,比如导出的数据文件前面几行是表头或其他描
(2)ctl脚本t37_party_curr_.ctl(数据存放在脚本中也可分离出)
options(bindsize=16777216,readsize=16777216,errors=-1,rows=8000) -- sqlldr 命令显示的选项可以写到这里边来 LOAD DATA INFILE '/aml/worlpath/t37_party_curr_.TXT' --指定数据文件位置 "STR X'oa'" --0A代表换行符,即将换行符一起装载,相当于定义新行结尾符号 CHRACTERSET UTF8 TRUNCATE INTO TABLE t37_party_curr FIELDS TERMINATED BY "^|" --字段之间的分隔值为逗号,界定符号为 TRAILING NULLCOLS --没有值的字段设置为空
( "PARTY_ID" CHAR(64) NULLIF "PARTY_ID" =BLANKS,--注意字段建议都大写 "PARTY_CHN_NAME" CHAR(64) NULLIF "PARTY_CHN_NAME" =BLANKS, "CARD_NO" CHAR(64) NULLIF "CARD_NO" =BLANKS, "TR_DT" DATE"YYYY-MM-DD hh:mi:ss" NULLIF "TR_DT" =BLANKS )
参数:
append into table "T_USER_CTRL" -- 操作类型
-- 1) insert --为缺省方式,在数据装载开始时要求表为空
-- 2) append --在表中追加新记录
-- 3) replace --删除旧记录(用 delete from table 语句),替换成新装载的记录
-- 4) truncate --删除旧记录(用 truncate table 语句),替换成新装载的记录
fields terminated by ' ' -- 数据分隔符
606110048163029^|6218710231005136^|3^|2017-01-01 09:50:56
606110048161893^|6218710050051362^|3^|2017-01-01 09:50:56
606110048163012^|6218710067005134^|3^|2017-01-01 09:50:56
606110048164563^|6218710123005137^|3^|2017-01-01 09:50:56
注意:sqlldr导入以回车和回车换行字符结尾的文本,可能出现的问题
(1)在一个大文本中(超过1.5G),当有同时存在回车换行以及回车字符结尾时,如果换行结尾的量大于sqlldr默认缓冲1048576时候,会报错。
SQL*Loader-510: 数据文件 (XXX.txt) 中物理记录超过最大限制 (1048576)
SQL*Loader-2026: 加载因 SQL 加载程序无法继续而被终止。
解决方法
修改 readsize — 读取缓冲区的大小 (默认 1048576) 修改为 20971520
(2)以上但是还是报错
SQL*Loader-510: 数据文件 (XXX.txt) 中物理记录超过最大限制 (20971520)
SQL*Loader-2026: 加载因 SQL 加载程序无法继续而被终止。
这边简单分析下原因,sqlldr加载到我这边txt文本中第一行以回车换行符结尾,就默认所有行都以回车换行符结尾了,当加载到以换行符结尾的文本区域时由于换行结尾的行数过大,缓冲区无法装载而报错。
解决方法:
INFILE "xxx.txt" "str X'0A'"
0A代表换行符,即将换行符一起装载,相当于定义新行结尾符号。
相关文章:
oracle数据迁移快速导入导出:利用sqluldr2导出数据和sqlldr导入数据的方法