HiveServer 接收多个客户端发送的 SQL,HiveServer 在编译的时候,默认是串行编译。这样导致编译一个客户端的 SQL 的时候,其他客户端的编译请求需要等待。

表现出来的现象就会是提交一个SQL后,如果这个SQL比较大,那么后面的SQL再调过来后,需要排队等待,直到第一个SQL执行结束。

如果要修改成并行,需要调整hs2的参数,默认的参数设置是:

<property>
<name>hive.driver.parallel.compilation</name>
<value>false</value>
<description>
Whether to
enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
</description>
</property>

使用 tpcds 的 99 个 SQL 文件里的SQL, 连接 HiveServer,用 explain 进行生成执行计划,生成执行计划必须完成编译。

单线程测试

单线程使用 166345 ms

3 个线程测试

线程 1 使用 434078 ms
线程 2 使用 434621 ms
线程 3 使用 435138 ms

先把 hive-site.xml 里面的串行修改为并行:

<property>
<name>hive.driver.parallel.compilation</name>
<value>true</value>
<description>
Whether to
enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
</description>
</property>

重启 HiveServer后,3 个线程测试:

线程 1 使用 183818 ms
线程 2 使用 184821 ms
线程 3 使用 185408 ms

代码分析

Driver 代码可以看到,如果 isParallelEnabled=true,则使用 session 内的编译锁,各 session 没有关系。否则使用 globalCompileLock

private ReentrantLock tryAcquireCompileLock(boolean isParallelEnabled,
String command) {
final ReentrantLock compileLock = isParallelEnabled ?
SessionState.get().getCompileLock() : globalCompileLock;

使用hive的时候,可以看情况决定是否需要开启并行编译。


扫码手机观看或分享: