0680-5.16.1-impala-shell导出数据存在中文异常问题

December 17, 2023
测试
测试
测试
测试
3 分钟阅读

问题描述

Fayson在使用impala-shell -i hosts -d default -f test.sql -o test.txt, 导出结果数据时,发现执行SQL 报错,提示错误信息如下Unknown Exception : 'ascii' codec can't encode characters in position 61-62: ordinal not in range(128),看到这个异常,想必熟悉python的朋友知道这是python中文乱码的问题,Fayson下面会详细描述该问题和解决办法

  • 测试环境:

1.RedHat7.4

2.CDH5.16.1

问题重现

首先我们使用impala-shell 创建一张表并插入一条数据包含中文字符,然后进行查看

[hadoop2.macro.com:21000] > create table testimpala_shell (s1 string,s2 string);
[hadoop2.macro.com:21000] > insert into testimpala_shell values ("hello","你好");
[hadoop2.macro.com:21000] > select * from testimpala_shell;

然后执行下列命令,并查看日志,发现异常如下:

impala-shell -i hadoop2.macro.com -d default -f test.sql -o test1.log
或者
impala-shell -i hadoop2.macro.com -d default -f test.sql > test.log 2>&1
或者
impala-shell -i hadoop2.macro.com -d default -q “select * from testimpala_shell” -o test1.log

同样的语句在没有中文字符的情况下可以正常执行和导出结果数据

问题解决

由于查询在impala-shell 中没有问题,在导出数据的时候才有问题,这是impala-shell的客户端是由python编写的,而Python无法自动将unicode对象写入没有设置默认编码的输出流,所以导致该异常。对于该问题,修改impala-shell默认编码为utf-8即可解决该问题

vim /opt/cloudera/parcels/CDH/lib/impala-shell/impala_shell.py
#添加如下代码:
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

然后重新执行,发现已经可以正常执行

该问题经Cloudera确认为C5 版本的BUG,目前已在C6版本中修复

详细参考:https://issues.apache.org/jira/browse/IMPALA-2717

继续阅读

更多来自我们博客的帖子

如何安装 BuddyPress
由 测试 December 17, 2023
经过差不多一年的开发,BuddyPress 这个基于 WordPress Mu 的 SNS 插件正式版终于发布了。BuddyPress...
阅读更多
Filter如何工作
由 测试 December 17, 2023
在 web.xml...
阅读更多
如何理解CGAffineTransform
由 测试 December 17, 2023
CGAffineTransform A structure for holding an affine transformation matrix. ...
阅读更多