ARIMA 预测
ARIMA Forecasting
I have a time series data which looks something like this
Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_003 100 2014-7-8
id_009 78650 2012-12-23
id_990 100 2018-11-12
I am trying to build a Arima forecasting model on this data which has round about 550 observations. These are the steps i have followed
将时间序列数据转换为每日数据,并将 NA 值替换为 0。数据看起来像这样
Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_001 0 2015-7-16
id_001 0 2015-7-17
id_001 0 2015-7-18
id_001 0 2015-7-19
id_001 0 2015-7-20
....
id_003 100 2014-7-8
id_003 0 2014-7-9
id_003 0 2014-7-10
id_003 0 2014-7-11
id_003 0 2014-7-12
id_003 0 2014-7-13
....
id_009 78650 2012-12-23
id_009 0 2012-12-24
id_009 0 2012-12-25
id_009 0 2012-12-26
id_009 0 2012-12-27
id_009 0 2012-12-28
...
id_990 100 2018-11-12
id_990 0 2018-11-13
id_990 0 2018-11-14
id_990 0 2018-11-15
id_990 0 2018-11-16
id_990 0 2018-11-17
id_990 0 2018-11-18
id_990 0 2018-11-19
任何人都可以建议我现在如何处理这些 0 值吗?
看到贷款金额数字的差异,我会记录贷款金额。我是第一次尝试构建 ARIMA 模型,我已经阅读了所有插补方法,但我什么也找不到。谁能告诉我如何处理这些数据
我不完全了解您的具体域问题,但这些事情通常适用:
如果 NA 值代表您的领域特定问题的 0 值,则将它们替换为 0,然后拟合 ARIMA 模型(例如,如果您正在查看每日销售额和有些日子你的销售额为 0)
如果 NA 值表示您的领域特定问题的未知值,则不要替换它们并适合您的 ARIMA 模型。 (如果在特定的一天,员工忘记记下销售额并且可以是任何数字,就会出现这种情况)。
我可能根本不会使用插补。有一些方法可以在具有缺失值的时间序列上拟合 ARIMA 模型。通常这些算法也应该在 python 的某个地方实现。 (但我不知道,因为我主要使用 R)
I have a time series data which looks something like this
Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_003 100 2014-7-8
id_009 78650 2012-12-23
id_990 100 2018-11-12I am trying to build a Arima forecasting model on this data which has round about 550 observations. These are the steps i have followed
将时间序列数据转换为每日数据,并将 NA 值替换为 0。数据看起来像这样
Loan_id Loan_amount Loan_drawn_date
id_001 2000000 2015-7-15
id_001 0 2015-7-16
id_001 0 2015-7-17
id_001 0 2015-7-18
id_001 0 2015-7-19
id_001 0 2015-7-20
....
id_003 100 2014-7-8
id_003 0 2014-7-9
id_003 0 2014-7-10
id_003 0 2014-7-11
id_003 0 2014-7-12
id_003 0 2014-7-13
....
id_009 78650 2012-12-23
id_009 0 2012-12-24
id_009 0 2012-12-25
id_009 0 2012-12-26
id_009 0 2012-12-27
id_009 0 2012-12-28
...
id_990 100 2018-11-12
id_990 0 2018-11-13
id_990 0 2018-11-14
id_990 0 2018-11-15
id_990 0 2018-11-16
id_990 0 2018-11-17
id_990 0 2018-11-18
id_990 0 2018-11-19
任何人都可以建议我现在如何处理这些 0 值吗?
看到贷款金额数字的差异,我会记录贷款金额。我是第一次尝试构建 ARIMA 模型,我已经阅读了所有插补方法,但我什么也找不到。谁能告诉我如何处理这些数据
我不完全了解您的具体域问题,但这些事情通常适用:
如果 NA 值代表您的领域特定问题的 0 值,则将它们替换为 0,然后拟合 ARIMA 模型(例如,如果您正在查看每日销售额和有些日子你的销售额为 0)
如果 NA 值表示您的领域特定问题的未知值,则不要替换它们并适合您的 ARIMA 模型。 (如果在特定的一天,员工忘记记下销售额并且可以是任何数字,就会出现这种情况)。
我可能根本不会使用插补。有一些方法可以在具有缺失值的时间序列上拟合 ARIMA 模型。通常这些算法也应该在 python 的某个地方实现。 (但我不知道,因为我主要使用 R)