XLRDError: Excel xlsx file; not supported Databricks

XLRDError: Excel xlsx file; not supported Databricks

我正在使用 Azure Databricks 并尝试读取 excel 文件。我有一个 .xlsx.pgp 的加密文件。解密消息后,我将其作为字节数组获取。所以,这是我用来将此文件作为 pandas 数据帧读取的函数:

df = pd.read_excel(BytesIO(orig))

但是,这给了我以下错误:

XLRDError: Excel xlsx file; not supported

现在,根据 this 文档:

我已将 openpyxl 添加到集群,然后尝试 运行 以下操作:

df = pd.read_excel(BytesIO(orig),engine=`openpyxl`)

我遇到错误:

global name 'openpyxl' is not defined

通过以下命令,我得到:

df = pd.read_excel(BytesIO(orig),engine='openpyxl')

我得到的错误是:

ValueError: Unknown engine: openpyxl

我该如何解决这个问题?

感谢大家的帮助!

错误表明,openpyxl 库没有正确安装。也可能笔记本不在 openpyxl 库的范围内。

请在笔记本附带的集群中安装openpyxl,如下所示:

Step1: Select 群集并单击库。

第二步:点击安装新的

下一步点击 PyPI。

现在输入 openpyxl 库的名称

然后点击安装。

第 3 步: 检查 openpyxl 库的安装状态。

Step4:成功安装openpyxl库。


编辑-

Note - pandas version should be 1.0.1 or above.

如果pandas版本低于1.0.1,您可以使用pip install pandas

升级pandas库

使用 pd.__version__ 命令检查 pandas 版本。

有关更多信息,您可以参考来自 rama-a

answer