Pandas DataFrame - 选择和索引

Question

我有这个数据框pandas对象

df = pd.DataFrame(randn(5,4),['A','B','C','D','E'],['W','X','Y','Z'])

我执行，这是 table 行 A, B, C, D, E 和 W, X, Y, Z 列

这些 W, X, Y, Z 列中的每一列实际上都是一个 Pandas 系列，W 是一个 Pandas 系列，X 和 Y和 Z，它们共享一个公共索引。

这基本上就是一个数据框，一个共享索引的系列集。

到这里没关系。 :)

我可以这样抓取W列所有大于0的数据值：

注意 C 行消失了

但我不明白以下内容：

这句话的意思是什么？

df[df['W']>0][['Y','X']]

结果是这样的：

理论上，我正在抓取所有大于 0 的数据框 W 列值，我领先 return 基于 Y 和 X 列以什么标准或条件？

为什么我在 Y 和 X 列上获取这些值的原因是什么？

目前，我正在学习Pandas，我想知道这种行为的原因。

Answer 1

当你

df[df['W']>0]

return编辑了一个新的 data frame。因此，当您将 [['Y', 'X']] 放在此数据框的末尾时，您基本上是在这个新数据框中进行简单的选择。将出现在列 X 和 Y 中的值只是此 df 的 X 和 Y 的值。

更详细地说，df['W']>0 将 return 一个 Boolean 系列，即具有值 True 或 False 的系列。当您执行 df[df['W']>0] 时，您正在使用此系列过滤 df。输出将是 df 的行，其中 df['W']>0 returns True.

Answer 2

正如您在第一个和第二个步骤中所解释的那样：

Returns Y、X 列

df[['Y','X']]

Returns 行，其中 W > 0

df[df['W']>0]

第三步：Returns 行，其中 W > 0 然后我们 select Y，X 列

df[df['W']>0][['Y','X']]

基本上首先我们将函数 1 应用于数据框，然后在输出上应用函数 2。因此最终输出。

它是函数的顺序执行。

Answer 3

它在一个线程中执行两个独立的操作。

（过滤行）df[df['W'] > 0]只选择W列为正数的行
（过滤列）df[['X', 'Y']]只选择感兴趣的2列

Answer 4

df['W']>0 returns 列大于零的布尔序列 (true) else false
df[df['W']>0] returns 来自 df 的所有行，其中 df['W']>0 是 true
df['X'] returns 数据帧的列 'X'
类似地，df[['X', 'Y']] returns 来自数据帧的列 X & Y

如您所见，语法 df[...] 可以有不同的含义：

它可以用于通过传递一个与数据框长度相同的布尔序列来按行屏蔽数据框
可用于select单个列（传入字符串）或一组列（传入字符串列表）

Answer 5

如果将此 Python 代码与例如 excel 进行比较，您可以声明：

IF(W>0,"Value if True(return Y and X)", "Value if False ("")")

Pandas DataFrame - 选择和索引

Pandas DataFrame - Selecting and Indexing

python

dataframe

pandas

data-science