OLS 回归结果

OLS Regression Results

我正在尝试为一个大学项目做一个 "OLS Regression Results",我的代码是这样的:

import statsmodels.api as sm
from statsmodels.formula.api import ols
import numpy as np

data=np.loadtxt('file.txt',skiprows=1)
season=data[:nb,0]
tod=data[:nb,1]
obs=data[:nb,2]
pr=data[:nb,3]

data_lm = ols('pr ~ tod + season',data=data).fit()
table = sm.stats.anova_lm(data_lm, typ=2) 
data_lm.summary()
print(table)

它给了我这个错误“PatsyError:错误评估因素:IndexError:只有整数,切片(:),省略号(...),numpy.newaxis(None) 和整数或布尔数组是有效索引 pr ~ tod) + season

我认为错误出在我的数据格式上。文本文件包含 4 个不同的列(season、tod、obs 和 pr)。

season:[3., 3., 1., 3., 3., 3., 3., 3., 1., 3., 3., 1., 3., 2., 3., 3., 3.,
       1., 1., 1., 1., 3., 1., 2., 1., 3., 1., 1., 2., 1., 3., 3., 1., 1.,
       1., 2., 3.]

tod:[2., 4., 1., 2., 2., 2., 4., 1., 3., 3., 1., 3., 3., 2., 2., 4., 3.,
       3., 4., 3., 3., 2., 4., 1., 3., 4., 1., 1., 1., 3., 3., 4., 3., 3.,
       4., 4., 4.]

obs:[ 1.,  1.,  1.,  3.,  3.,  3.,  3.,  3.,  4.,  4.,  4.,  5.,  5.,
        5.,  5.,  5.,  6.,  9.,  9., 12., 12., 12., 12., 12., 13., 13.,
       16., 16., 17., 19., 19., 19., 20., 20., 20., 20., 24.]

pr:[0. , 0. , 0. , 0.1, 0.2, 0.2, 0.4, 0.4, 0.5, 0.5, 0.7, 0.7, 0.7,
       0.8, 0.8, 0.8, 0.8, 0.9, 0.9, 1. , 1. , 1.1, 1.1, 1.2, 1.3, 1.4,
       1.4, 1.5, 1.6, 1.7, 1.7, 1.8, 1.8, 1.9, 2. , 2. , 2. ]

谁能帮帮我?

data 是一个基本的 NumPy ndarray 对象。当您使用 [] 对它们进行索引时,它们接受整数、切片或其他 "array like" 对象。但是,ols 函数在 the documentation:

中明确表示

data must define __getitem__ with the keys in the formula

这意味着 data 必须是 pandas DataFrame、字典或 NumPy structured array,并且 __getitem__ 方法接受 str 对象作为索引。