在 zip 中添加 h5 文件以与 PySpark 一起使用

Adding h5 files in a zip to use with PySpark

我正在为我的 spark 应用程序使用 PySpark 1.6.1。我有其他模块,我正在使用参数 --py-files 加载这些模块。我还有一个 h5 文件,我需要从其中一个模块访问该文件以初始化 ApolloNet。

如果我将这些文件放在同一个存档中,有什么方法可以从模块中访问这些文件吗?我尝试了这种方法,但它抛出了一个错误,因为这些文件并不存在于每个工作人员中。我可以考虑将文件复制到每个工作人员,但我想知道是否有更好的方法来做到这一点?

发现您可以通过在 spark-submit 中使用 --files 参数将附加文件添加到所有工作人员。