在消耗 CPU 周期的所有节点上频繁压缩 OpsCenter.rollup_state

Frequent Compaction of OpsCenter.rollup_state on all the nodes consuming CPU cycles

我正在使用 Datastax Cassandra 4.8.16。在 VM 上的每个 DC 上有 8 个 DC 和 5 个节点的集群。在过去的几周里,我们观察到以下性能问题

1) 增加 VM 的掉落数。

2) LOCAL_QUORUM 一些写操作没有实现。

3) OpsCenter.rollup_statesystem.hints 的频繁压缩在 Opscenter 中可见。

感谢任何有助于找到此问题根本原因的帮助。

存在丢失的突变意味着集群严重超载。它可能是主要负载的增加,因此它 + 从 OpsCenter 加载,过载的系统 - 您需要查看有关每个节点和每个表的请求数量、延迟等的统计信息,以查看增加发生的位置。还请检查机器上的 I/O 统计数据(例如,使用 iostat)- 队列大小、read/write 延迟等

此外,建议使用专用的 OpsCenter 集群来存储指标 - 它的大小可能更小,并且不需要额外的 DSE 许可证。在OpsCenter's documentation中是怎么说的:

Important: In production environments, DataStax strongly recommends storing data in a separate DataStax Enterprise cluster.

关于虚拟机 - 通常不是真正推荐的设置,但在很大程度上取决于底层硬件的类型 - CPU 数量、RAM、磁盘系统。