1. 向HDFS导入数据
- 从下面的地址下载web日志示例文件,解压缩后的weblogs_rebuild.txt文件放到/root/big_data目录下。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_rebuild.txt.zip?version=1&modificationDate=1327069200000
- 建立一个作业,把文件导入HDFS中。
(1)打开PDI,新建一个作业,如图1所示。
data:image/s3,"s3://crabby-images/19de3/19de3ea1cc504502620e89ba261436955213cc2e" alt=""
图1
(2)编辑'Hadoop Copy Files'作业项,如图2所示。
data:image/s3,"s3://crabby-images/854f6/854f6211204bc0515438f12b93c0ef4c76398af7" alt=""
图2
说明:CDH631是已经建立好的Hadoop Clusters对象,建立过程参见https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%8C%E3%80%81%E8%BF%9E%E6%8E%A5Hadoop%E9%9B%86%E7%BE%A4。
(3)保存并执行作业,日志如图3所示。
data:image/s3,"s3://crabby-images/96282/96282da48794846177ac7f909133214ed3befc1f" alt=""
图3
从图3可以看到,作业已经成功执行。
(4)检查HDFS,结果如图4所示。
data:image/s3,"s3://crabby-images/1b365/1b365827a4593e9561325e56f28e30634bb9ee47" alt=""
图4
从图4可以看到,weblogs_rebuild.txt已经传到了HDFS的/root/big_data目录下。
2. 向Hive导入数据
- 从下面的地址下载web日志示例文件,解压缩后的weblogs_parse.txt文件放到Hadoop的/user/grid/目录下。
http://wiki.pentaho.com/download/attachments/23530622/weblogs_parse.txt.zip?version=1&modificationDate=1327068013000
- 建立一个作业,将文件导入到hive表中。
(1)执行下面的HSQL建立一个hive表,表结构与weblogs_parse.txt文件的结构相同。
create table test.weblogs (
client_ip string,
full_request_date string,
day string,
month string,
month_num int,
year string,
hour string,
minute string,
second string,
timezone string,
http_verb string,
uri string,
http_status_code string,
bytes_returned string,
referrer string,
user_agent string)
row format delimited fields terminated by '\t';
(2)打开PDI,新建一个作业,如图1所示。 (3)编辑'Hadoop Copy Files'作业项,如图5所示。
data:image/s3,"s3://crabby-images/3c9e6/3c9e662ef1daffcc705a06a945378be7f0a1bfd4" alt=""
图5
(4)保存并执行作业,日志如图6所示。
data:image/s3,"s3://crabby-images/49497/49497e1f217f08b082a5e26cec1be4651f152511" alt=""
图6
从图6可以看到,作业已经成功执行。
(5)查询test.weblogs表,结果如图7所示。
data:image/s3,"s3://crabby-images/97ed4/97ed4c2eb57e6474a28f185cd35418b52e885fbe" alt=""
图7
从图7可以看到,向test.weblogs表中导入了445454条数据。
二、从Hadoop集群抽取数据
1. 把数据从HDFS抽取到RDBMS
(1)从下面的地址下载示例文件。 http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000
(2)用hdfs用户执行下面的命令,把解压缩后的weblogs_aggregate.txt文件放到HDFS的/user/root/目录下,并修改读写权限。
hdfs dfs -put -f /root/weblogs_aggregate.txt /user/root/
hdfs dfs -chmod -R 777 /
(3)打开PDI,新建一个转换,如图8所示。
data:image/s3,"s3://crabby-images/78a85/78a85d8f04c6b5c001e408608df5ffd3644df4e5" alt=""
图8
(4)编辑'Hadoop File Input'步骤,如图9到图11所示。
data:image/s3,"s3://crabby-images/b61e4/b61e40c04373002504b1fbc0dff1b4b60a96a183" alt=""
图9
data:image/s3,"s3://crabby-images/21474/214741ce93d31a227fdda4fe5bad704bfef446fa" alt=""
图10
data:image/s3,"s3://crabby-images/f0e73/f0e7362640f61eaf7503f1cc75856992c0e93912" alt=""
图11
说明:在“File”标签指定Hadoop集群和要抽取的HDFS文件;在“Content”标签指定文件的属性,以TAB作为字段分隔符;在“Fields”指定字段属性。
(5)编辑'Table Output'步骤,如图12所示。
data:image/s3,"s3://crabby-images/b4ef4/b4ef4e2a4668431bd17676f602a85666eefffb71" alt=""
图12
说明:
- mysql_node3是已经建好的一个本地数据库连接,参见https://wxy0327.blog.csdn.net/article/details/106406702#%E4%BA%94%E3%80%81%E5%90%8E%E7%BB%AD%EF%BC%88%E5%BB%BA%E7%AB%8BMySQL%E6%95%B0%E6%8D%AE%E5%BA%93%E8%BF%9E%E6%8E%A5%EF%BC%89。
- “Database fields”标签不需要设置。
(6)执行下面的脚本建立mysql的表。
use test;
create table aggregate_hdfs (
client_ip varchar(15),
year smallint,
month_num tinyint,
pageviews bigint
);
(7)保存并执行转换,日志如图13所示。
data:image/s3,"s3://crabby-images/6fa66/6fa6614ab182da64f3cfafd16fae684347ebf598" alt=""
图13
从图13可以看到,转换已经成功执行。
(8)查询mysql表,结果如图14所示。
data:image/s3,"s3://crabby-images/b27fb/b27fb368e7e87258c811e2645f0643d28734019d" alt=""
图14
从图14可以看到,数据已经从HDFS抽取到了mysql表中。
2. 把数据从Hive抽取到RDBMS
(1)执行下面的脚本建立mysql的表
use test;
create table aggregate_hive (
client_ip varchar(15),
year varchar(4),
month varchar(10),
month_num tinyint,
pageviews bigint
);
(2)打开PDI,新建一个转换,如图15所示。
data:image/s3,"s3://crabby-images/38bf6/38bf6d6d4eebec00672612e2290524084fddc9ad" alt=""
图15
(3)编辑'Table input'步骤,如图16所示。
data:image/s3,"s3://crabby-images/dc499/dc499aade531addb049a08ffcf58623768e6af30" alt=""
图16
说明:hive_cdh631是已经建好的一个hive数据库连接,参见https://wxy0327.blog.csdn.net/article/details/106406702#%E4%B8%89%E3%80%81%E8%BF%9E%E6%8E%A5Hive。
(4)编辑'Table output'步骤,如图17所示。
data:image/s3,"s3://crabby-images/f1be2/f1be2e2083189a8c659f11c38a11cb69520bee95" alt=""
图17
说明:mysql_node3是已经建好的一个本地数据库连接;“Database fields”标签不需要设置。
(5)保存并执行转换,日志如图18所示。
data:image/s3,"s3://crabby-images/e25f5/e25f55265246348061202af0d461d4875d46520c" alt=""
图18
从图18可以看到,转换已经成功执行。
(6)查询mysql表,结果如图19所示。
data:image/s3,"s3://crabby-images/ddae0/ddae0c103515c230318e595b7ffc161d763d1993" alt=""
图19
参考:
- http://wiki.pentaho.com/display/BAD/Extracting+Data+from+HDFS+to+Load+an+RDBMS
- http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS