在 Excel 中创建概率分布
Creating a probability distribution in Excel
有人给了我三个数据点,让我做一个分布。
以下是我完成任务的说明:
The bottom 20th percentile will yield 13 units this month. The median of the data shows we should produce 23 units this month. Best case, the top 20th percentile shows us producing 30 units this month.
这是关于尝试找出当月生产一定数量的零件的可能性百分比。
我试过像这样进行分发:
但是,我希望生成如下所示的概率分布:
我正在处理的数据(根据我老板的上述指示总结的)如下:
| Serial Number | Median Projected Finish Date | Median In July | Best Case Projected Finish Date | Best In July | Worst Case Projected Finish Date | Worst In July |
|:-------------:|:----------------------------:|:--------------:|:-------------------------------:|:------------:|:--------------------------------:|:-------------:|
| 8473 | 7/18/2019 | 1 | 6/28/2019 | 1 | 8/2/2019 | 0 |
| 11963 | 6/30/2019 | 1 | 6/28/2019 | 1 | 7/28/2019 | 1 |
| 15165 | 6/27/2019 | 1 | 6/27/2019 | 1 | 6/28/2019 | 1 |
| 28023 | 7/1/2019 | 1 | 6/29/2019 | 1 | 7/3/2019 | 1 |
| 14355 | 9/1/2019 | 0 | 7/11/2019 | 1 | 9/13/2019 | 0 |
| 14388 | 7/3/2019 | 1 | 7/1/2019 | 1 | 7/7/2019 | 1 |
| 796 | 7/18/2019 | 1 | 6/28/2019 | 1 | 8/2/2019 | 0 |
| 20574 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 6518 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 19969 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/18/2019 | 1 |
| 10244 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 9980 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 26056 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 8849 | 7/18/2019 | 1 | 7/2/2019 | 1 | 8/2/2019 | 0 |
| 7409 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 1386 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 13971 | 7/17/2019 | 1 | 6/27/2019 | 1 | 8/1/2019 | 0 |
| 21974 | 7/25/2019 | 1 | 7/19/2019 | 1 | 8/12/2019 | 0 |
| 20546 | 7/25/2019 | 1 | 7/19/2019 | 1 | 8/12/2019 | 0 |
| 10055 | 6/30/2019 | 1 | 6/27/2019 | 1 | 7/28/2019 | 1 |
| 22766 | 7/17/2019 | 1 | 6/27/2019 | 1 | 8/1/2019 | 0 |
| 12679 | 7/18/2019 | 1 | 7/2/2019 | 1 | 8/2/2019 | 0 |
| 28837 | 7/26/2019 | 1 | 6/30/2019 | 1 | 8/14/2019 | 0 |
| 12509 | 7/31/2019 | 1 | 7/4/2019 | 1 | 8/18/2019 | 0 |
| 1624 | 8/5/2019 | 0 | 7/29/2019 | 1 | 8/21/2019 | 0 |
| 5689 | 8/1/2019 | 0 | 7/4/2019 | 1 | 8/19/2019 | 0 |
| 29315 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 10618 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 16235 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 12079 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| | | 23 | | 30 | | 13 |
上面的数据源是零件唯一标识符的概述,该序列号的预计完成日期,如果完成它的步骤在 20% 的最佳/最差时间中的预计完成日期,以及"in July" 列以查看是否在 7 月份完成(用于对最后一行中的总数求和)。
我曾尝试关注 this resource,但未能成功。如何使用我的数据创建概率分布?
目标是找出在给定月份(比如 2019 年 7 月)完成 x
单元数的可能性百分比。我只能使用上面的数据。能够有一个图表显示(或接近显示)有一个 11% probability of finishing 32 units in 2019
(任意)。理想情况下,概率分布会告诉我们完成 x
个单位的概率是多少。我想下限为 0,上限为 30
(因为只列出了 30 个项目)。
您可以查看每个单元完成的日期作为随机变量。对于每个单元,您将获得三个概率。对于第一个单元,P(U1 < 6/28) = 0.2,P(U1 > 8/2) = 0.2,以及P(U1 < 7/18) = 0.5,其中 7/18 是中位数。
如果我们假设U1服从正态分布,那么它的中位数和平均值就等于7/18,概率P(U1 < k1) = 0.2 和 P(U1 > k2) = 0.2 必须是 k1 和 k2 与平均值 7/18 的距离相等。 U1 不是这种情况,表明 U1 很可能不是正态分布的。您可能需要考虑其他偏斜的概率分布,其中中位数的概率为 0.5。有 Exponentially modified Gaussian distribution, the Skew normal distribution,还有很多其他的。无论您对单位的生产有什么了解,都可能有助于选择概率分布。
假设我们要使用正态分布。我们将不使用日期,而是使用第 1 天为 7/1 的天数。我们需要为每个单元估计其正态分布的参数,即给定三个概率点的均值和标准差。因为正态分布是对称的,所以平均值是 worst/best 20% 天之间的中间一天。对于 U1,平均值将为 m1 = (33 - (-2)) / 2 + -2 = 15.5。我们知道 P(U1 > 33) = 0.2。 N(0;1) > 0.84 时会出现这种情况。因此,标准偏差 s1 = (33 - 15.5) / 0.84 = 20.8。知道m1和s1,我们可以计算出U1在7月份完成的概率, 即 P(U1 ~ N(m1;s1) < 32) .对所有 N 个单元进行相同的估计。这给了我们 N 个概率,即单元在 7 月完成的概率。
计算N单元中R单元在7月份完成的概率,参考以下答案
最后假设单位的生产是独立的。如果不是这种情况(例如,两个单位依赖于一个共同的零件供应商),那么计算出的概率可能不太好。但我认为最好的改进是找到一个比正态分布更能代表你的数据的分布。
有人给了我三个数据点,让我做一个分布。 以下是我完成任务的说明:
The bottom 20th percentile will yield 13 units this month. The median of the data shows we should produce 23 units this month. Best case, the top 20th percentile shows us producing 30 units this month.
这是关于尝试找出当月生产一定数量的零件的可能性百分比。
我试过像这样进行分发:
但是,我希望生成如下所示的概率分布:
我正在处理的数据(根据我老板的上述指示总结的)如下:
| Serial Number | Median Projected Finish Date | Median In July | Best Case Projected Finish Date | Best In July | Worst Case Projected Finish Date | Worst In July |
|:-------------:|:----------------------------:|:--------------:|:-------------------------------:|:------------:|:--------------------------------:|:-------------:|
| 8473 | 7/18/2019 | 1 | 6/28/2019 | 1 | 8/2/2019 | 0 |
| 11963 | 6/30/2019 | 1 | 6/28/2019 | 1 | 7/28/2019 | 1 |
| 15165 | 6/27/2019 | 1 | 6/27/2019 | 1 | 6/28/2019 | 1 |
| 28023 | 7/1/2019 | 1 | 6/29/2019 | 1 | 7/3/2019 | 1 |
| 14355 | 9/1/2019 | 0 | 7/11/2019 | 1 | 9/13/2019 | 0 |
| 14388 | 7/3/2019 | 1 | 7/1/2019 | 1 | 7/7/2019 | 1 |
| 796 | 7/18/2019 | 1 | 6/28/2019 | 1 | 8/2/2019 | 0 |
| 20574 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 6518 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 19969 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/18/2019 | 1 |
| 10244 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 9980 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 26056 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 8849 | 7/18/2019 | 1 | 7/2/2019 | 1 | 8/2/2019 | 0 |
| 7409 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 1386 | 7/11/2019 | 1 | 7/9/2019 | 1 | 7/19/2019 | 1 |
| 13971 | 7/17/2019 | 1 | 6/27/2019 | 1 | 8/1/2019 | 0 |
| 21974 | 7/25/2019 | 1 | 7/19/2019 | 1 | 8/12/2019 | 0 |
| 20546 | 7/25/2019 | 1 | 7/19/2019 | 1 | 8/12/2019 | 0 |
| 10055 | 6/30/2019 | 1 | 6/27/2019 | 1 | 7/28/2019 | 1 |
| 22766 | 7/17/2019 | 1 | 6/27/2019 | 1 | 8/1/2019 | 0 |
| 12679 | 7/18/2019 | 1 | 7/2/2019 | 1 | 8/2/2019 | 0 |
| 28837 | 7/26/2019 | 1 | 6/30/2019 | 1 | 8/14/2019 | 0 |
| 12509 | 7/31/2019 | 1 | 7/4/2019 | 1 | 8/18/2019 | 0 |
| 1624 | 8/5/2019 | 0 | 7/29/2019 | 1 | 8/21/2019 | 0 |
| 5689 | 8/1/2019 | 0 | 7/4/2019 | 1 | 8/19/2019 | 0 |
| 29315 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 10618 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 16235 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| 12079 | 8/2/2019 | 0 | 7/5/2019 | 1 | 8/29/2019 | 0 |
| | | 23 | | 30 | | 13 |
上面的数据源是零件唯一标识符的概述,该序列号的预计完成日期,如果完成它的步骤在 20% 的最佳/最差时间中的预计完成日期,以及"in July" 列以查看是否在 7 月份完成(用于对最后一行中的总数求和)。
我曾尝试关注 this resource,但未能成功。如何使用我的数据创建概率分布?
目标是找出在给定月份(比如 2019 年 7 月)完成 x
单元数的可能性百分比。我只能使用上面的数据。能够有一个图表显示(或接近显示)有一个 11% probability of finishing 32 units in 2019
(任意)。理想情况下,概率分布会告诉我们完成 x
个单位的概率是多少。我想下限为 0,上限为 30
(因为只列出了 30 个项目)。
您可以查看每个单元完成的日期作为随机变量。对于每个单元,您将获得三个概率。对于第一个单元,P(U1 < 6/28) = 0.2,P(U1 > 8/2) = 0.2,以及P(U1 < 7/18) = 0.5,其中 7/18 是中位数。
如果我们假设U1服从正态分布,那么它的中位数和平均值就等于7/18,概率P(U1 < k1) = 0.2 和 P(U1 > k2) = 0.2 必须是 k1 和 k2 与平均值 7/18 的距离相等。 U1 不是这种情况,表明 U1 很可能不是正态分布的。您可能需要考虑其他偏斜的概率分布,其中中位数的概率为 0.5。有 Exponentially modified Gaussian distribution, the Skew normal distribution,还有很多其他的。无论您对单位的生产有什么了解,都可能有助于选择概率分布。
假设我们要使用正态分布。我们将不使用日期,而是使用第 1 天为 7/1 的天数。我们需要为每个单元估计其正态分布的参数,即给定三个概率点的均值和标准差。因为正态分布是对称的,所以平均值是 worst/best 20% 天之间的中间一天。对于 U1,平均值将为 m1 = (33 - (-2)) / 2 + -2 = 15.5。我们知道 P(U1 > 33) = 0.2。 N(0;1) > 0.84 时会出现这种情况。因此,标准偏差 s1 = (33 - 15.5) / 0.84 = 20.8。知道m1和s1,我们可以计算出U1在7月份完成的概率, 即 P(U1 ~ N(m1;s1) < 32) .对所有 N 个单元进行相同的估计。这给了我们 N 个概率,即单元在 7 月完成的概率。
计算N单元中R单元在7月份完成的概率,参考以下答案
最后假设单位的生产是独立的。如果不是这种情况(例如,两个单位依赖于一个共同的零件供应商),那么计算出的概率可能不太好。但我认为最好的改进是找到一个比正态分布更能代表你的数据的分布。