XLRDError: Excel xlsx file; not supported Databricks
XLRDError: Excel xlsx file; not supported Databricks
我正在使用 Azure Databricks 并尝试读取 excel 文件。我有一个 .xlsx.pgp
的加密文件。解密消息后,我将其作为字节数组获取。所以,这是我用来将此文件作为 pandas 数据帧读取的函数:
df = pd.read_excel(BytesIO(orig))
但是,这给了我以下错误:
XLRDError: Excel xlsx file; not supported
现在,根据 this 文档:
我已将 openpyxl 添加到集群,然后尝试 运行 以下操作:
df = pd.read_excel(BytesIO(orig),engine=`openpyxl`)
我遇到错误:
global name 'openpyxl' is not defined
通过以下命令,我得到:
df = pd.read_excel(BytesIO(orig),engine='openpyxl')
我得到的错误是:
ValueError: Unknown engine: openpyxl
我该如何解决这个问题?
感谢大家的帮助!
错误表明,openpyxl 库没有正确安装。也可能笔记本不在 openpyxl 库的范围内。
请在笔记本附带的集群中安装openpyxl,如下所示:
Step1: Select 群集并单击库。
第二步:点击安装新的
下一步点击 PyPI。
现在输入 openpyxl 库的名称
然后点击安装。
第 3 步: 检查 openpyxl 库的安装状态。
Step4:成功安装openpyxl库。
编辑-
Note - pandas version should be 1.0.1 or above.
如果pandas版本低于1.0.1,您可以使用pip install pandas
升级pandas库
使用 pd.__version__
命令检查 pandas 版本。
有关更多信息,您可以参考来自 rama-a
的 answer
我正在使用 Azure Databricks 并尝试读取 excel 文件。我有一个 .xlsx.pgp
的加密文件。解密消息后,我将其作为字节数组获取。所以,这是我用来将此文件作为 pandas 数据帧读取的函数:
df = pd.read_excel(BytesIO(orig))
但是,这给了我以下错误:
XLRDError: Excel xlsx file; not supported
现在,根据 this 文档:
我已将 openpyxl 添加到集群,然后尝试 运行 以下操作:
df = pd.read_excel(BytesIO(orig),engine=`openpyxl`)
我遇到错误:
global name 'openpyxl' is not defined
通过以下命令,我得到:
df = pd.read_excel(BytesIO(orig),engine='openpyxl')
我得到的错误是:
ValueError: Unknown engine: openpyxl
我该如何解决这个问题?
感谢大家的帮助!
错误表明,openpyxl 库没有正确安装。也可能笔记本不在 openpyxl 库的范围内。
请在笔记本附带的集群中安装openpyxl,如下所示:
Step1: Select 群集并单击库。
第二步:点击安装新的
下一步点击 PyPI。
现在输入 openpyxl 库的名称
然后点击安装。
第 3 步: 检查 openpyxl 库的安装状态。
Step4:成功安装openpyxl库。
编辑-
Note - pandas version should be 1.0.1 or above.
如果pandas版本低于1.0.1,您可以使用pip install pandas
使用 pd.__version__
命令检查 pandas 版本。
有关更多信息,您可以参考来自 rama-a
的 answer