为什么我们在 presto 查询中看到尖峰 运行 次?

Why are we seeing spikes in our presto query run times?

我们正在尝试调试为什么我们的 presto 查询 运行 时间在一天中变化很大。我们看到几个显着的峰值,一些在工作时间,一些在工作时间之外。我们使用 EMR 5.14 版和 Presto 0.194 版。我们的数据使用 Hive 创建的镶木地板文件存储在 S3 中。下图显示了使用 Presto CLI 随着时间的推移同一查询的 运行 次。任何关于我们应该关注什么或什么可能导致这些峰值的任何 ideas/suggestions 将不胜感激。谢谢!

张贴这个以防其他人遇到这个问题。我们最终在 hive.properties 中禁用了配置单元统计信息并提高了性能。