可能丢失的记录数

Probable number of missing records

我很难掌握我正在复习的问题中的概率假设。

给定:

如果发现有这样的差距,我们希望估计缺失的记录数。

例如:

    Previous TXNID: 100 (given)
    Current TXNID: 125 (given)
    Predicted increment: 5 (given)
    Actual increment: 25 (current - previous)

实际增量大于预测增量,因此我们知道至少缺少一条记录。

我们也知道有一条丢失的记录的TXNID等于当前的TXNID - 5。估计剩余间隙内的记录是问题的重点。

   Remaining gap: 20 (actual increment - predicted increment)

我们想要估计的是剩余间隙中缺失记录的数量。在此示例中,丢失的记录可能由增量为 20 的单个记录、增量为 1 的 20 条记录或这些极端值之间的任何相关组合组成。

    20 = 20 x 1
    ...
    20 = 1 x 20

作者提出,由于每个 TXNID 增量在 1 和 20 之间的概率相等,因此剩余差距的 5% (1/20) 是对缺失记录数的现实估计。

以非常有限的方式对此进行了测试,假设似乎有效;但是,我很难理解每种情况都有相同概率的逻辑。

我同意单条记录有 1/20 (5%) 的机会增加 20(场景 1 x 20)。但是对于相反的情况(20 x 1),概率不应该复合吗?在这里,我不仅要求单条记录的增量为1(5%的概率),而且接下来的19条记录也为1。因此,看起来剩余间隙内存在20条缺失记录的概率明显较小(0.05 ^ 20 对 0.05)。

我是不是想多了?我错过了一点吗?对剩余差距应用 5% 作为估计缺失记录数的方法是否有意义?

谢谢

安德鲁

坦率地说,我会从不同的角度来处理这个问题。我假设记录来自 Poisson stream。因此,记录之间的差异根据泊松分布分布。

如果这是真的,您可以估计泊松参数 \lambda 并估计在记录之间的任何给定距离处平均应该有多少条记录