在主 python 文件中导入其他 python 文件,该文件用于 databricks 的 spark-submit
Import additional python files in main python file which is used in spark-submit of databricks
我在 Azure 中创建了一个数据块。我在其中启动了一个工作区和一个集群。
我已将主 python 文件放在数据块文件系统中。
dbfs:/FileStore/tables/read_batch.py
此 read_batch.py 已从名为 my_util 的目录中导入了另一个 python 个文件。
用法)
from my_util.apps_config import crct_type_list
我已将 apps_config.py 放在 my_util 目录中,该目录与主 python 文件 read_batch.py 平行。即 my_util 目录也存在于 dbfs:/FileStore/tables 中。
当我尝试在数据块中创建 spark-submit 作业时,出现以下错误,
ImportError: No module named 'my_util'
运行 databricks 中的这个 spark-submit 作业的正确方法是什么 而不是 将所有内容放入一个大的 python 文件中?
我压缩了依赖文件并上传了它。我已经使用
在 python 主文件中导入了内容 zip 文件
import sys
sys.path.insert(0, jobs.zip)
在 spark 提交期间使用 "--py-files jobs.zip" 包含了 zip 文件。
参考下面的link,里面讲的是spark submit的最佳实践。
https://developerzen.com/best-practices-writing-production-grade-pyspark-jobs-cb688ac4d20f
我在 Azure 中创建了一个数据块。我在其中启动了一个工作区和一个集群。 我已将主 python 文件放在数据块文件系统中。 dbfs:/FileStore/tables/read_batch.py
此 read_batch.py 已从名为 my_util 的目录中导入了另一个 python 个文件。 用法)
from my_util.apps_config import crct_type_list
我已将 apps_config.py 放在 my_util 目录中,该目录与主 python 文件 read_batch.py 平行。即 my_util 目录也存在于 dbfs:/FileStore/tables 中。
当我尝试在数据块中创建 spark-submit 作业时,出现以下错误,
ImportError: No module named 'my_util'
运行 databricks 中的这个 spark-submit 作业的正确方法是什么 而不是 将所有内容放入一个大的 python 文件中?
我压缩了依赖文件并上传了它。我已经使用
在 python 主文件中导入了内容 zip 文件import sys
sys.path.insert(0, jobs.zip)
在 spark 提交期间使用 "--py-files jobs.zip" 包含了 zip 文件。 参考下面的link,里面讲的是spark submit的最佳实践。 https://developerzen.com/best-practices-writing-production-grade-pyspark-jobs-cb688ac4d20f