pandas 数据框中的值过滤器保持 NaN
Value filter in pandas dataframe keeping NaN
我正在尝试从数据框中过滤小于特定值的数据。如果没有 NaN 那么它工作正常。但是当有 nan 时,它会忽略 NaN 值。我想一直包括它并不重要,它小于或大于比较值。
import pandas as pd
import numpy as np
df = pd.DataFrame(
{
'index': [1, 2, 3, 4, 5, 6, 7, 8, 9],
'value': [5, 6, 7, np.nan, 9, 3, 11, 34, 78]
}
)
df_chunked = df[(df['index'] >= 1) & (df['index'] <= 5)]
print('df_chunked')
print(df_chunked)
df_result = df_chunked[(df_chunked['value'] < 10)]
# df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]
print('df_result')
print(df_result)
在上面的结果中显示了 5,6,7,9。但我也想要南那里。我试过
df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]
但它不起作用。
我该怎么做?
尝试:
df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'].isna())]
df_result
index value
0 1 5.0
1 2 6.0
2 3 7.0
3 4 NaN
4 5 9.0
使用not运算符:~
df_chunked[~(df_chunked['value'].ge(10))]
#df_chunked[~(df_chunked['value']>=10)] #greater or equal(the same)
index value
0 1 5.0
1 2 6.0
2 3 7.0
3 4 NaN
4 5 9.0
为什么?
因为逻辑操作简单地 忽略 NaN
值并将其作为 False
,总是如您在以下数据框中所见,那么如果你想避免使用 series.isna
(
避免不必要的额外代码) 并简化您的代码只需使用 ~
的逆逻辑
print(df.assign(greater_than_5 = df['value'].gt(5),
not_greater_than_5 = df['value'].le(5)))
index value greater_than_5 not_greater_than_5
0 1 5.0 False True
1 2 6.0 True False
2 3 7.0 True False
3 4 NaN False False
4 5 9.0 True False
5 6 3.0 False True
6 7 11.0 True False
7 8 34.0 True False
8 9 78.0 True False
您可以简单地定义您的 df_result 如下:
df_result = df_chunked[(df_chunked["value"] < 10) | (df_chunked["value"].isnull())]
有效。
我正在尝试从数据框中过滤小于特定值的数据。如果没有 NaN 那么它工作正常。但是当有 nan 时,它会忽略 NaN 值。我想一直包括它并不重要,它小于或大于比较值。
import pandas as pd
import numpy as np
df = pd.DataFrame(
{
'index': [1, 2, 3, 4, 5, 6, 7, 8, 9],
'value': [5, 6, 7, np.nan, 9, 3, 11, 34, 78]
}
)
df_chunked = df[(df['index'] >= 1) & (df['index'] <= 5)]
print('df_chunked')
print(df_chunked)
df_result = df_chunked[(df_chunked['value'] < 10)]
# df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]
print('df_result')
print(df_result)
在上面的结果中显示了 5,6,7,9。但我也想要南那里。我试过
df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'] == np.isnan(df_chunked['value']))]
但它不起作用。
我该怎么做?
尝试:
df_result = df_chunked[(df_chunked['value'] < 10) | (df_chunked['value'].isna())]
df_result
index value
0 1 5.0
1 2 6.0
2 3 7.0
3 4 NaN
4 5 9.0
使用not运算符:~
df_chunked[~(df_chunked['value'].ge(10))]
#df_chunked[~(df_chunked['value']>=10)] #greater or equal(the same)
index value
0 1 5.0
1 2 6.0
2 3 7.0
3 4 NaN
4 5 9.0
为什么?
因为逻辑操作简单地 忽略 NaN
值并将其作为 False
,总是如您在以下数据框中所见,那么如果你想避免使用 series.isna
(
避免不必要的额外代码) 并简化您的代码只需使用 ~
print(df.assign(greater_than_5 = df['value'].gt(5),
not_greater_than_5 = df['value'].le(5)))
index value greater_than_5 not_greater_than_5
0 1 5.0 False True
1 2 6.0 True False
2 3 7.0 True False
3 4 NaN False False
4 5 9.0 True False
5 6 3.0 False True
6 7 11.0 True False
7 8 34.0 True False
8 9 78.0 True False
您可以简单地定义您的 df_result 如下:
df_result = df_chunked[(df_chunked["value"] < 10) | (df_chunked["value"].isnull())]
有效。