Reed-Solomon 奇偶校验困境：数据分片与奇偶校验分片

Reed-Solomon Parity dilemma: Data shard vs Parity Shard

假设有一个 60 drives over 5 nodes 的集群，每个节点有 12 个驱动器。

什么更安全？

6 drives data shards + 2 parity shards = 8 drives

对

8 drives data shards + 2 parity shards = 10 drives

对

9 drives data shards + 3 parity shards = 12 drives

对

16 drives data shards + 4 parity shards = 20 drives

另外，如果你要构建这个迷你集群，你会选择什么样的奇偶校验？

以上两种配置哪个多：

顺便说一句，我在 bluestore 上使用了 ceph。欢迎大家批评指正。

我意识到我要向集群中添加另一个节点，然后运行每个节点 8+2 个节点以最大化耐用性和可用性。

单个节点发生故障的几率是六分之一，即使某个节点出现故障也是如此。它将取下 8 个数据 + 2 个奇偶校验分片。

在 Ceph 中，数据可以分布，因此没有节点有超过 2 个数据的奇偶校验分片数据。

这将允许一个节点关闭，最多可以关闭 2 个奇偶校验分片或 2 个数据分片。这虽然会给重建平价的系统带来压力，但它是相当安全的。

更安全的选择是降低到 6 + 2，但这对我的用例来说浪费了太多数据。

我本来可以发布概率，但它们是在 excel 中完成的，我不知道如何在此处上传 excel。