pd.read_excel - 导入具有不同设置的多个工作表

Question

我正在导入一个非常大的 (60+MB) xlsx 文件，其中包含许多选项卡。只有一个标签需要跳过，我试过了：

TuFile=pd.read_excel('TUp.xlsx', sheet_name=['T_up','Raw_Data','Base','Summary'], skiprows=[8,None,None,None])

注意：我正在尝试复制：TuFile = xls.parse(xls.sheet_names[3], skiprows=8)，效果很好，只是我不能使用 sheet 名称。

Answer 1

当您使用 pandas.read_excel() 加载多个 sheet 时，sheet 将存储在字典中，键为相应的 sheet 名字。当以这种方式加载多个 sheet 时传递 skiprows 参数时，将从所有 sheet 中跳过指定数量的顶部行或给定的行列表。

比如你的代码修改如下，

TuFile=pd.read_excel('TUp.xlsx', sheet_name=['T_up','Raw_Data','Base','Summary'], skiprows=[8])

这将在加载所有 sheet 的数据时跳过前 8 行。

指定行列表时，

TuFile=pd.read_excel('TUp.xlsx', sheet_name=['T_up','Raw_Data','Base','Summary'], skiprows=[1, 8])

这将在加载数据时跳过所有 sheet 中的第一行和第八行。

因此，如果您只想跳过其中一个 sheet 中的行，最好的选择是通过定义 sheet 名称单独加载它，然后加载其余的部分。假设您只想跳过 'T_up' sheet 中的行并保持其余部分不变，您可以这样做，

TuFile=pd.read_excel('TUp.xlsx', sheet_name='T_up', skiprows=[8])

TuFile=pd.read_excel('TUp.xlsx', sheet_name=['Raw_Data','Base','Summary'])

pd.read_excel - import multiple sheets with different settings