可能丢失的记录数
Probable number of missing records
我很难掌握我正在复习的问题中的概率假设。
给定:
- 数据集中的每条记录都有一个唯一的交易 ID 号 (TXNID)
- TXNID之间的增量变化是可以根据交易时间预测的(具体方法与问题无关)
- 因为增量变化是可预测的,我们可以识别两个连续的TXNID之间是否有记录缺失。具体来说,如果两个连续的 TXNID 之间的差异大于预测的增量变化,那么至少有一条记录丢失
- 两个TXNID之间的增量总是1到20(含)之间的整数
- 出现 1 到 20 的任何增量的概率相等
如果发现有这样的差距,我们希望估计缺失的记录数。
例如:
Previous TXNID: 100 (given)
Current TXNID: 125 (given)
Predicted increment: 5 (given)
Actual increment: 25 (current - previous)
实际增量大于预测增量,因此我们知道至少缺少一条记录。
我们也知道有一条丢失的记录的TXNID等于当前的TXNID - 5。估计剩余间隙内的记录是问题的重点。
Remaining gap: 20 (actual increment - predicted increment)
我们想要估计的是剩余间隙中缺失记录的数量。在此示例中,丢失的记录可能由增量为 20 的单个记录、增量为 1 的 20 条记录或这些极端值之间的任何相关组合组成。
20 = 20 x 1
...
20 = 1 x 20
作者提出,由于每个 TXNID 增量在 1 和 20 之间的概率相等,因此剩余差距的 5% (1/20) 是对缺失记录数的现实估计。
以非常有限的方式对此进行了测试,假设似乎有效;但是,我很难理解每种情况都有相同概率的逻辑。
我同意单条记录有 1/20 (5%) 的机会增加 20(场景 1 x 20)。但是对于相反的情况(20 x 1),概率不应该复合吗?在这里,我不仅要求单条记录的增量为1(5%的概率),而且接下来的19条记录也为1。因此,看起来剩余间隙内存在20条缺失记录的概率明显较小(0.05 ^ 20 对 0.05)。
我是不是想多了?我错过了一点吗?对剩余差距应用 5% 作为估计缺失记录数的方法是否有意义?
谢谢
安德鲁
坦率地说,我会从不同的角度来处理这个问题。我假设记录来自 Poisson stream。因此,记录之间的差异根据泊松分布分布。
如果这是真的,您可以估计泊松参数 \lambda
并估计在记录之间的任何给定距离处平均应该有多少条记录
我很难掌握我正在复习的问题中的概率假设。
给定:
- 数据集中的每条记录都有一个唯一的交易 ID 号 (TXNID)
- TXNID之间的增量变化是可以根据交易时间预测的(具体方法与问题无关)
- 因为增量变化是可预测的,我们可以识别两个连续的TXNID之间是否有记录缺失。具体来说,如果两个连续的 TXNID 之间的差异大于预测的增量变化,那么至少有一条记录丢失
- 两个TXNID之间的增量总是1到20(含)之间的整数
- 出现 1 到 20 的任何增量的概率相等
如果发现有这样的差距,我们希望估计缺失的记录数。
例如:
Previous TXNID: 100 (given)
Current TXNID: 125 (given)
Predicted increment: 5 (given)
Actual increment: 25 (current - previous)
实际增量大于预测增量,因此我们知道至少缺少一条记录。
我们也知道有一条丢失的记录的TXNID等于当前的TXNID - 5。估计剩余间隙内的记录是问题的重点。
Remaining gap: 20 (actual increment - predicted increment)
我们想要估计的是剩余间隙中缺失记录的数量。在此示例中,丢失的记录可能由增量为 20 的单个记录、增量为 1 的 20 条记录或这些极端值之间的任何相关组合组成。
20 = 20 x 1
...
20 = 1 x 20
作者提出,由于每个 TXNID 增量在 1 和 20 之间的概率相等,因此剩余差距的 5% (1/20) 是对缺失记录数的现实估计。
以非常有限的方式对此进行了测试,假设似乎有效;但是,我很难理解每种情况都有相同概率的逻辑。
我同意单条记录有 1/20 (5%) 的机会增加 20(场景 1 x 20)。但是对于相反的情况(20 x 1),概率不应该复合吗?在这里,我不仅要求单条记录的增量为1(5%的概率),而且接下来的19条记录也为1。因此,看起来剩余间隙内存在20条缺失记录的概率明显较小(0.05 ^ 20 对 0.05)。
我是不是想多了?我错过了一点吗?对剩余差距应用 5% 作为估计缺失记录数的方法是否有意义?
谢谢
安德鲁
坦率地说,我会从不同的角度来处理这个问题。我假设记录来自 Poisson stream。因此,记录之间的差异根据泊松分布分布。
如果这是真的,您可以估计泊松参数 \lambda
并估计在记录之间的任何给定距离处平均应该有多少条记录