HiveServer2 对于执行计划的并行编译

HiveServer 接收多个客户端发送的 SQL，HiveServer 在编译的时候，默认是串行编译。这样导致编译一个客户端的 SQL 的时候，其他客户端的编译请求需要等待。

表现出来的现象就会是提交一个SQL后，如果这个SQL比较大，那么后面的SQL再调过来后，需要排队等待，直到第一个SQL执行结束。

如果要修改成并行，需要调整hs2的参数，默认的参数设置是：

<property>
  <name>hive.driver.parallel.compilation</name>
  <value>false</value>
  <description>
    Whether to
    enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
  </description>
</property>

使用 tpcds 的 99 个 SQL 文件里的SQL, 连接 HiveServer，用 explain 进行生成执行计划，生成执行计划必须完成编译。

单线程测试

单线程使用 166345 ms

3 个线程测试

线程 1 使用 434078 ms
线程 2 使用 434621 ms
线程 3 使用 435138 ms

先把 hive-site.xml 里面的串行修改为并行：

<property>
  <name>hive.driver.parallel.compilation</name>
  <value>true</value>
  <description>
    Whether to
    enable parallel compilation of the queries between sessions and within the same session on HiveServer2. The default is false.
  </description>
</property>

重启 HiveServer后，3 个线程测试：

线程 1 使用 183818 ms
线程 2 使用 184821 ms
线程 3 使用 185408 ms

代码分析

Driver 代码可以看到，如果 isParallelEnabled=true，则使用 session 内的编译锁，各 session 没有关系。否则使用 globalCompileLock

private ReentrantLock tryAcquireCompileLock(boolean isParallelEnabled,
   String command) {
   final ReentrantLock compileLock = isParallelEnabled ?
       SessionState.get().getCompileLock() : globalCompileLock;

使用hive的时候，可以看情况决定是否需要开启并行编译。

扫码手机观看或分享：

惊帆的BLOG

关于我

HiveServer2 对于执行计划的并行编译

单线程测试

3 个线程测试

重启 HiveServer后，3 个线程测试：

代码分析