MS SQL到Oracle的数据迁移笔记
一、任务背景
旧系统使用MS SQL Server数据库,新系统使用Oracle数据库,现在需要将旧系统中的数据迁移到新系统中,旧数据按照约定的规则转换后,能够在新系统中使用或查询。另外,新系统的实施人员并不清楚旧系统的数据结构,且两个新旧两个系统的使用的数据结构有较大的差异。为了叙述方便,将旧系统维护人员简称为A,新系统实施人员简称为B。
二、总体思路
1、 A与B根据各自了解的信息,一起制定中间表;
2、 A从MS SQL Server提取数据,并导出为中间表数据,保存为txt文件;
3、 B将txt文件中的数据导入Oracle中间表;
4、 B将Oracle中间表的数据,合并到业务逻辑使用的数据表。
三、具体实现
第1步,涉及到具体的业务逻辑,此处省略。
第2步,使用MS SQL Server 的BCP命令从MS SQL Server导出数据,并且使用批处理将多个表一起导出(此处只列出一个表),见下图:
第3步使用Oracle 的sqlldr命令将上一步导出的数据导入Oracle,见下图:
控制文件:
第4步,涉及到具体业务逻辑的转换,这里使用Merge合并数据,同时兼容增量导入的需要。此处也省略。
最后将这三步使用批处理连贯起来,形成一个文件,最后只需执行此批处理文件即可完成从MS SQL Server导出,到导入Oracle和执行Oracle中的Procedure的整个数据迁移过程。
目录结构见下图:
说明:
bad:存放sqlldr执行过程中发生的错误信息
bat:存放导出、导入、执行sql文件夹中SQL的批处理文件,见下图:
执行sql文件夹中SQL的批处理文件:
bat目录的文件:
ctl:存放sqlldr所需的CTL文件
data:存放BCP导出和sqlldr导入的数据
sql:存放执行Oracle 执行的SQL,在每一个sql文件中SQL语句的最后加上一句”EXIT;“
DATA_Export_Import_3in1.bat:将bat中所有批处理文件按顺序合并执行,并且输出每一步的执行log信息,见下图。运行此文件即可完成整个过程的数据迁移。
四、总结
刚开始做这个任务的时候,使用的是SQL Developer的复制表功能——从MS SQL Server数据库将表拷贝到Oracle,见下图:
使用这个方法,可以顺利将数据表拷贝到Oracle,而且操作方便简洁,但是速度比较慢,两种方法的比较见下表(由实际操作中多次导数的统计结果):
从上表可以看出,使用”BCP & SQLLDR“方法在同样数据量的情况下,耗时远小于”SQL Developer“的方法。
另外在实践中,还发现使用”BCP & SQLLDR“有以下几个特点:
1、可以再导出时对要导出的数据进行筛选,通过在BCP命令中编写SQL;
2、可以对要导入的数据进行一些简单的格式化(如去除空格、替换不需要的字符等),通过在SQLLDR的CTL文件中处理。
3、整个执行过程都可以获取log,对出错问题的处理比较方便。
---------------------------------------------------------------------------------------------------------------------------------------
以上内容为个人实践总结,如有不足之处,敬请指出。
08/05 补充:
--获取CTL文件中所需的Columns,包括去掉字符串中的空格,日期和数字的转化,Clob类型数据的处理
SELECT wmsys.wm_concat(column_name)
FROM
(SELECT(
CASE data_type
WHEN 'VARCHAR2' THEN column_name || ' ' || CHR(34) || 'TRIM(REPLACE(:' ||
column_name || ',CHR(0),'''')) ' || CHR(34)
WHEN 'DATE' THEN column_name || ' ' || CHR(34) || 'TO_DATE(SUBSTR(:' ||
column_name || ',0,19),''yyyy-mm-dd-hh24.mi.ss'')' || CHR(34)
WHEN 'NUMBER' THEN column_name || ' ' || CHR(34) || 'TO_NUMBER(:' ||
column_name || ')' || CHR(34)
WHEN 'CLOB' THEN column_name || ' CHAR(100000)'
ELSE column_name
END) column_name
FROM all_tab_columns
WHERE TABLE_NAME = UPPER('TMP_PACKAGE')
ORDER BY column_id);