在主 python 文件中导入其他 python 文件，该文件用于 databricks 的 spark-submit

Question

我在 Azure 中创建了一个数据块。我在其中启动了一个工作区和一个集群。我已将主 python 文件放在数据块文件系统中。 dbfs:/FileStore/tables/read_batch.py

此 read_batch.py 已从名为 my_util 的目录中导入了另一个 python 个文件。用法）

from my_util.apps_config import crct_type_list

我已将 apps_config.py 放在 my_util 目录中，该目录与主 python 文件 read_batch.py 平行。即 my_util 目录也存在于 dbfs:/FileStore/tables 中。

当我尝试在数据块中创建 spark-submit 作业时，出现以下错误，

ImportError: No module named 'my_util'

运行 databricks 中的这个 spark-submit 作业的正确方法是什么 而不是 将所有内容放入一个大的 python 文件中？

Answer 1

我压缩了依赖文件并上传了它。我已经使用

在 python 主文件中导入了内容 zip 文件

import sys
sys.path.insert(0, jobs.zip)

在 spark 提交期间使用 "--py-files jobs.zip" 包含了 zip 文件。参考下面的link，里面讲的是spark submit的最佳实践。 https://developerzen.com/best-practices-writing-production-grade-pyspark-jobs-cb688ac4d20f

Import additional python files in main python file which is used in spark-submit of databricks