HiveServer2 对于执行计划的并行编译
HiveServer 接收多个客户端发送的 SQL,HiveServer 在编译的时候,默认是串行编译。这样导致编译一个客户端的 SQL 的时候,其他客户端的编译请求需要等待。
表现出来的现象就会是提交一个SQL后,如果这个SQL比较大,那么后面的SQL再调过来后,需要排队等待,直到第一个SQL执行结束。
如果要修改成并行,需要调整hs2的参数,默认的参数设置是:
<property> |
使用 tpcds 的 99 个 SQL 文件里的SQL, 连接 HiveServer,用 explain 进行生成执行计划,生成执行计划必须完成编译。
单线程测试
单线程使用 166345 ms |
3 个线程测试
线程 1 使用 434078 ms |
先把 hive-site.xml 里面的串行修改为并行:
<property> |
重启 HiveServer后,3 个线程测试:
线程 1 使用 183818 ms |
代码分析
Driver 代码可以看到,如果 isParallelEnabled=true,则使用 session 内的编译锁,各 session 没有关系。否则使用 globalCompileLock
private ReentrantLock tryAcquireCompileLock(boolean isParallelEnabled, |
使用hive的时候,可以看情况决定是否需要开启并行编译。
扫码手机观看或分享: