如何处理房地产数据中的缺失值?

How to deal with missing values in Real-Estate data?

我正在处理属性数据集,我正在尝试处理 Land Square Feet Column 中的缺失值。数据集中有近 160000 条记录。其中 70000 条记录缺少 LandSquareFeet。我还有一个功能可以说明建筑物的类型。当建筑类型为 CONDO/Walkup 时,我在 LandSquareFeet 中有很多缺失值。 LandsquareFeet 中有 47k 条公寓类型的记录,其中有 44k 条记录缺少值。 Elevator/Walkup 公寓的大部分房产也是如此。其他类别的建筑物在 LandSquareFeet 中丢失了极少量的记录。我对如何处理缺少的 Landsquarefeet 功能感到困惑。如果我删除缺少 LandSquareFeet 的记录,我将丢失几乎一半的数据集。我不知道删除所有记录的功能是否明智。我做了 Little 的 MCAR 测试来确定它是否是 MCAR,但我得到的 p 值为 0.000,所以它不是 MCAR。是三月吗?有关如何处理此问题的任何线索都会有所帮助。

首先,研究数据中的缺失可能是个好主意,因为缺失解决的工具和方法通常根据这些特征进行分类

  • 缺失模式:如果您只有 1 列缺失,那么您的缺失模式是 无响应。它本来可以是单调多变量、一般形式、案例匹配等...该模式描述了缺失发生的分布
  • 缺失机制:正如您已经提到的,我们可能存在MCAR、MNAR和MAR缺失。我不知道 MCAR 测试 的实际含义,基本上,如果缺失发生与其他特征相关,则 MNAR 缺失发生,而 MAR 是缺失发生与掩蔽相关特征本身的价值。根据你的描述,你的case很明显是MNAR(按房屋类型预测)。但它也可能是 MAR,假设由于任意原因经常未观察到或未记录小值。

MCAR缺失可以通过imputation技术轻松解决,您可以搜索MICE算法,或者MissForest,作为MICE的特例。

MNAR 和 MAR 缺失机制称为不可忽略机制。有诸如 IP 加权之类的技术来处理这种类型。最近也发表了一些论文,将缺失作为因果推理问题来处理。

坏消息是在某些特殊情况下,MAR 缺失在理论上是无法修复的。好消息是,已经研究和调查了几个非常非常复杂的案例,希望您的案例不会比那些更复杂,因此您可以应用现有的方法。

我尝试的不是解决你的问题,而是给你一些必要的关键字,通过这些关键字你也许可以找到你的material。如果你愿意花很多时间在这上面,你可以阅读一本关于这个主题的好书:

  • R。 J. Little 和 D. B. Rubin,缺失数据的统计分析,卷。 793. 约翰·威利父子公司,2019 年。

我最后的想法:我有一种直觉,你可以通过 IP-Weighting 所有可能的方法来解决你的问题。查一下。