有没有更好的方法来跨 clickhouse 集群查询系统表?

is there a better way to query system tables across a clickhouse cluster?

我们有一个适度的 clickhouse 集群,约 30 个节点,并希望收集其上的使用情况统计信息。我们希望使用针对系统 tables 的计划查询来做到这一点,但是使用普通查询只能获取有关您碰巧连接到的一个节点的信息,而创建分布式 table 仅适用于*日志系统 tables。我们可以遍历节点,但不想那样做。有没有办法在一个查询中获取系统 table 的所有实例,例如 system.parts?

可以使用remote or remoteSecure支持多地址的函数:

SELECT
    hostName() AS host,
    any(partition),
    count()
FROM remote('node{01..30}-west.contoso.com', system, parts)
GROUP BY host

/*
┌─host──────────┬─any(partition)─┬─count()─┐
│ node01-west   │ 202012         │     733 │
..
│ node30-west   │ 202012         │     687 │
└───────────────┴────────────────┴─────────┘
*/

分布式表适用于任何类型的表和 clusterAllReplicas。

create table test on cluster replicated as system.processes Engine=Distributed(replicated, system, processes);


SELECT
    FQDN(),
    elapsed
FROM test

┌─FQDN()────────────────────┬────elapsed─┐
│ hos.mycmdb.net            │ 0.00063795 │
└───────────────────────────┴────────────┘


SELECT
    FQDN(),
    elapsed
FROM clusterAllReplicas(replicated, system, sessions);

SELECT elapsed
FROM clusterAllReplicas(replicated, system, processes)

┌─────elapsed─┐
│ 0.005636027 │
└─────────────┘
┌─────elapsed─┐
│ 0.000228303 │
└─────────────┘
┌─────elapsed─┐
│ 0.000275745 │
└─────────────┘
┌─────elapsed─┐
│ 0.000311621 │
└─────────────┘
┌─────elapsed─┐
│ 0.000270791 │
└─────────────┘
┌─────elapsed─┐
│ 0.000288045 │
└─────────────┘
┌─────elapsed─┐
│ 0.001048277 │
└─────────────┘
┌─────elapsed─┐
│ 0.000256203 │
└─────────────┘


郑重声明,我们最终使用了物化视图:

CREATE MATERIALIZED VIEW _tmp.parts on cluster main_cluster 
engine = Distributed('main_cluster', 'system', 'parts', rand())
AS select * from system.parts