问题描述
Fayson在使用impala-shell -i hosts -d default -f test.sql -o test.txt, 导出结果数据时,发现执行SQL 报错,提示错误信息如下Unknown Exception : 'ascii' codec can't encode characters in position 61-62: ordinal not in range(128),看到这个异常,想必熟悉python的朋友知道这是python中文乱码的问题,Fayson下面会详细描述该问题和解决办法
- 测试环境:
1.RedHat7.4
2.CDH5.16.1
问题重现
首先我们使用impala-shell 创建一张表并插入一条数据包含中文字符,然后进行查看
[hadoop2.macro.com:21000] > create table testimpala_shell (s1 string,s2 string);
[hadoop2.macro.com:21000] > insert into testimpala_shell values ("hello","你好");
[hadoop2.macro.com:21000] > select * from testimpala_shell;
然后执行下列命令,并查看日志,发现异常如下:
impala-shell -i hadoop2.macro.com -d default -f test.sql -o test1.log
或者
impala-shell -i hadoop2.macro.com -d default -f test.sql > test.log 2>&1
或者
impala-shell -i hadoop2.macro.com -d default -q “select * from testimpala_shell” -o test1.log
同样的语句在没有中文字符的情况下可以正常执行和导出结果数据
问题解决
由于查询在impala-shell 中没有问题,在导出数据的时候才有问题,这是impala-shell的客户端是由python编写的,而Python无法自动将unicode对象写入没有设置默认编码的输出流,所以导致该异常。对于该问题,修改impala-shell默认编码为utf-8即可解决该问题
vim /opt/cloudera/parcels/CDH/lib/impala-shell/impala_shell.py
#添加如下代码:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
然后重新执行,发现已经可以正常执行
该问题经Cloudera确认为C5 版本的BUG,目前已在C6版本中修复
详细参考:https://issues.apache.org/jira/browse/IMPALA-2717