sqlldr 导入大数据量数据

时间:2021-05-04 22:51:57
最近在处理一些数据,数据量比较大的数据,记录下使用方法和过程,以备日后查看
如果使用insert插入超过1000条时间就有点长了(5、6分钟)
使用plsql的text import 导入8万条耐心等一会也可以忍受,
但是我们要处理的是500万条数据,尝试了几种方法,最后选择了sqlldr
首先会有一个数据文件,这个数据文件是文本型的 txt\csv\nul\del都没关系,只要内容遵循一定规则,比如逗号分割和定长
在数据库中新建一个存放这些数据的表
如:
create table users(
user_id number,             --用户 ID
user_name varchar2(50),     --用户名
login_times number,         --登陆次数
last_login              date--最后登录日期
);
在其中插入任意条数据,然后通过plsql导出为csv文件:users_data.csv
建立一个控制文件 users.ctl,内容如下:
---文件开始
OPTIONS (skip=1,rows=128) -- sqlldr 命令显示的选项可以写到这里边来,skip=1 用来跳过数据中的第一行,如果没有参数此行可去掉
LOAD DATA  INFILE    "/home/users_data.csv" --指定外部数据文件,可以写多个 INFILE "another_data_file.csv" 指定多个数据文件 
BADFILE "/home/bad.log"  --指定坏数据和丢弃数据--的文件,
truncate   --操作类型,用 truncate table 来清除表中原有记录 还有
INTO   TABLE users -- 要插入记录的表
Fields terminated     by","-- 数据中每列记录用 "," 分隔   FIELDS TERMINATED BY x'09'16进制09
Optionally enclosed by '"' -- 数据中每个字段用 '"' 框起,比如字段中有 "," 分隔符时
trailing nullcols --表的字段没有对应的值时允许为空
(    virtual_column FILLER,   --这是一个虚拟字段,用来跳过由 PL/SQL Developer 生成的第一列序号
--user_id number,   --字段可以指定类型,否则认为是 CHARACTER 类型, log 文件中有显示
user_id   "user_seq.nextval", --这一列直接取序列的下一值,而不用数据中提供的值
user_name   "'Hi '||upper(:user_name)",--,还能用SQL函数或运算对数据进行加工处理
login_times,
last_login     DATE"YYYY-MM-DD HH24:MI:SS"-- 指定接受日期的格式,相当用 to_date() 函数转换
)

---文件结束

在操作类型 truncate 位置可用以下中的一值:
insert     --为缺省方式,在数据装载开始时要求表为空
append  --在表中追加新记录
replace  --删除旧记录(用 delete from table 语句),替换成新装载的记录
truncate --删除旧记录(用 truncate table 语句),替换成新装载的记录


然后执行命令 sqlldr username/password@USERDB control='/home/users.ctl'  --USERDB为数据库实例名