背景:
前段时间,需要从异地一个测试数据库中将测试数据(一张表)导入本地库,表数据量大约500万,字段160多个,开始用了exp/imp方式,速度奇慢,不能忍,于是转而使用expdp/impdp方式。
expdp/impd介绍:
从10g开始,除了传统的exp/imp导入导出工具外,Oracle提供了expdp/impdp的数据泵导入导出工具。
从官方文档上看(http://docs.oracle.com/cd/E11882_01/server.112/e22490/dp_overview.htm#SUTIL802),Oracle数据泵由三部分组成:
>The command-line clients, expdp and impdp
>The DBMS_DATAPUMP PL/SQL package (also known as the Data Pump API)
>The DBMS_METADATA PL/SQL package (also known as the Metadata API)
The Data Pump clients, expdp and impdp, invoke the Data Pump Export utility and Data Pump Import utility, respectively. 数据泵客户端(expdp/impdp),分别会调用数据泵Data Pump Export/Import Utility应用工具。
The expdp and impdp clients use the procedures provided in the DBMS_DATAPUMP PL/SQL package to execute export and import commands, using the parameters entered at the command line. These parameters enable the exporting and importing of data and metadata for a complete database or for subsets of a database. expdp/impdp客户端使用由DBMS_DATAPUMP PL/SQL包提供的存储过程来执行export/import命令,并且可以在命令行中添加参数,这些参数可以导入导出数据库中的数据和元数据或其中的一部分。 When metadata is moved, Data Pump uses functionality provided by the DBMS_METADATA PL/SQL package. The DBMS_METADATA package provides a centralized facility for the extraction, manipulation, and re-creation of dictionary metadata.
如果需要导入导出元数据,数据泵会使用DBMS_METADATA PL/SQL包提供的函数。DBMS_METADATA包会提供便捷的方法,用于抽取、控制和重建数据字典元数据。
The DBMS_DATAPUMP and DBMS_METADATA PL/SQL packages can be used independently of the Data Pump clients.
DBMS_DATAPUMP和DBMS_METADATA的PL/SQL包可以独立于数据泵客户端使用。
All Data Pump Export and Import processing, including the reading and writing of dump files, is done on the system (server) selected by the specified database connect string. This means that for unprivileged users, the database administrator (DBA) must create directory objects for the Data Pump files that are read and written on that server file system. (For security reasons, DBAs must ensure that only approved users are allowed access to directory objects.) For privileged users, a default directory object is available. See "Default Locations for Dump, Log, and SQL Files" for more information about directory objects.
所有的数据泵导入导出过程,包括读取和写入的dump文件,都在数据库服务器(server)上。这意味着对于非授权用户,DBA必须为数据泵文件创建服务器端可读写的目录对象,处于安全考虑,DBA必须确保只有授权用户可以访问这些目录对象。对于授权用户,可以使用默认的目录对象。
总结:
数据泵工具expdp/impdp工具,执行时其实是调用的两个PL/SQL包(一个对应数据,一个对应元数据),读取和写入的dump文件存储于服务器上directory目录对应的文件夹中。
问题来了,如果没有服务器的账号,即使可以导出,但如何获取到导出的dump呢?
现在的需求是,从本地服务器使用expdp从远程服务器导出一张表的数据,然后使用impdp导入到本地库,且没有远程服务器的登录账号。
一个远程数据表的导入导出问题,当然这里使用exp/imp完全可以做到,现在看看expdp/impdp如何做。
解决方案:通过dblink实现远程数据的导入导出。
1. 本地库创建dblink指向远程库。
create database link gf_local connect to username identified by password using 'tnsname';
2. 本地库创建directory目录对象。
create directory expdp_dir as '/home/oracle11g/expdp_dir/';
3. 本地库创建数据泵导出参数文件。
vi exp.par:
userid=username/password //本地库的用户名密码,可用上面创建的dblink和directory目录。
directory=expdp_dir //本地库创建的directory目录。
dumpfile=gf_expdp.dump //dump文件名。
logfile=gf_expdp.log //日志文件名。
tables=depkf15.t_cp //要导出的表。
query='"where rownum<1000001"' //导出条件,前100万行。
network_link=gf_local //dblink名。
注意,这里有个小问题值得注意,tables=depkf15.t_cp,如果待导出表和登录用户不同,则这里需要添加导出的对象schema(用户),否则会报错。
4. 执行导出命令。
expdp parfile=exp.par
开始报错了,提示:
ORA-31631:需要权限
ORA-39149:无法将授权用户链接到非授权用户
此时需要授予远程数据库用户exp_full_database权限:
GRANT exp_full_database TO username;
接下来就是等待了,dump文件会存储至本地的expdp_dir指向路径下。
总结:
1. expdp/impdp是10g以上提供的数据泵工具,运行时会调用两个PL/SQL包,当然也可以直接运行这两个PL/SQL包,没试过,如果大家试过,也可以分享出来。
2. 导入数据库账户需要有imp_full_database权限,导出数据库账户需要有exp_full_database权限。
3. expdp比exp更优,还有一些地方,比如从help=y可以看到expdp有更多的参数可选,其中expdp有COMPRESSION压缩参数可选,解释如下:
Reduce the size of a dump file.
Valid keyword values are: ALL, DATA_ONLY, [METADATA_ONLY] and NONE.
可参考secooler的这篇文章(http://blog.itpub.net/519536/viewspace-630005/),比对了四种参数的压缩比。
4. 由于我的实验中,远程库和本地库之间网络不是很好,因此实际效果上,exp和expdp都比较慢,也是因为用了dblink的方式,就没再深入了,这里只是为了说明expdp/impdp如何实现远程数据库的导出。
后经同事测试,一个800MB的文件,使用exp导出大约用了1小时,expdp只需要不到10分钟,请注意,这里未使用COMPRESSION参数。
有人说这是由于exp和expdp导出机制决定的,exp导出过程实际是由select执行的加载数据,放到buffer cache,再传到export客户端写入dump文件。expdp则是采用直接路径模式,直接从磁盘读取,写入PGA,再传到export客户端写入dump文件。没有经过buffer cache缓存就一定程度决定了他的导出速度。
5. 网上有人说“expdp/impdp是服务端程序,影响他的只有磁盘IO”,从上面的介绍看,是不完全准确的,expdp/impdp是客户端工具,执行时调用的是数据库服务器端的两个PL/SQL包,上面的实验也是通过dblink进行的远程导入,并未在服务器端使用。