如何转发填充 C# 数据框中的缺失值

How to forward fill missing values in a C# data frame

我正在尝试转发 Deedle C# 数据框中的填充值,就像在 python 中使用 pandas.ffill() 函数一样。 pandas 中的前向填充允许在行和列索引处进行前向填充。我想在 Deedle 中做同样的事情,在同一行但从不同的列中获取最近的非缺失值,因此跨行,这在 python 和 pandas 中非常简单。我是 C# 和 Deedle 库的新手,我在文档中所能找到的只是如何在一个系列中而不是跨数据框转发填充值。非常感谢任何帮助,我是新手,而且我似乎无法在任何地方找到该库的任何实质性示例。

这是我的数据框的一个示例,我正在尝试跨行向前填充值。因此,col3 中缺失值的填充值将成为 col2 等同一行中的最后一个值。

-------- rawDF ------
col1 col2 col3
AAA  BBB    
CCC  DDD  EEE
FFF     
BBB  AAA    
DDD  CCC    
EEE  FFF
AAA     
BBB  CCC    
AAA     
FFF  AAA    
DDD 

Deedle 文档中为 C# 和 F# 提供的示例仅填充了一系列中的值,如图所示。如果我尝试 FillMissing();在整个数据框中,我什么也没得到。

//Fill with previous available value in the series
var fillFwd = col2.FillMissing(Direction.Forward);
fillFwd.Print();

//Fill with the next available value
var fillBwd = col2.FillMissing(Direction.Backward);
fillBwd.Print()

---- nothing happens with the following ----

//forward fill all values in the DF
rawDF.FillMissing(Direction.Forward);
rawDF.Print();

//backward fill all values in the DF

//fill values in the DF with a constant value
rawDF.FillMissing(0);
rawDF.Print();

首先,您调用 rawDf.FillMissing 然后打印 rawDF 的第二组示例不执行任何操作,因为 Deedle 数据帧(大部分)是不可变的。像 FillMissing return 新的(填充的)数据框这样的操作不会修改原始数据框。因此,使用这些操作的正确方法是在第一组示例中,您将结果分配给一个新变量,然后打印它。

我遇到的第二个问题是,当您从(比如)CSV 文件中读取示例数据时,文件中的空字符串不会被视为缺失值,而是被视为有效(空)字符串值。如果您使用 Select 并将空字符串转换为 null:

,Deedle 可以将这些视为缺失值
var df = Frame.ReadCsv("C:/temp/aa.csv");
var dfEmpty = df.SelectValues((string s) => (s == "") ? null : s);

现在,当您像以前那样使用 FillMissing 操作时,您应该会看到一些事情发生了:

var fillFwd = dfEmpty.FillMissing(Direction.Backward);
fillFwd.Print();

正如您正确指出的那样,这并没有达到您想要的效果 - 它从上到下填充值。你想从左到右填充数据。一种方法是使用 Select,它可以让您单独转换每一行:

var fillRight = Frame.FromRows(dfEmpty.Rows.Select(row => 
  row.Value.FillMissing(Direction.Forward)));
fillRight.Print();

您还可以转置数据框,然后填充缺失值,然后将其转置回去(这是表达您需要的非常好的方式,但转置可能比仅使用 Select):

var fillRight = dfEmpty.Transpose().FillMissing(Direction.Forward).Transpose()