Pyspark 导入 .py 文件不起作用
Pyspark import .py file not working
我的目标是将自定义 .py 文件导入我的 spark 应用程序并调用该文件中包含的一些函数
这是我尝试过的:
我有一个名为 Test.py 的测试文件,如下所示:
def func():
print "Import is working"
在我的 Spark 应用程序中,我执行以下操作(如文档中所述):
sc = SparkContext(conf=conf, pyFiles=['/[AbsolutePathTo]/Test.py'])
我也试过这个(在创建 Spark 上下文之后):
sc.addFile("/[AbsolutePathTo]/Test.py")
我什至在提交我的 spark 申请时尝试了以下方法:
./bin/spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.10:1.5.0-M2 --py-files /[AbsolutePath]/Test.py ../Main/Code/app.py
然而,我总是得到一个名字错误:
NameError: name 'func' is not defined
当我在 app.py[ 中调用 func() 时=46=]。 (如果我尝试调用 Test.func())
,'Test' 会出现同样的错误
最后,al 还尝试使用与上述相同的命令将文件导入 pyspark shell:
sc.addFile("/[AbsolutePathTo]/Test.py")
奇怪的是,我在导入时没有收到错误,但我仍然无法在不收到错误的情况下调用 func()。另外,不确定这是否重要,但我在一台机器上本地使用 spark。
我真的尝试了所有我能想到的方法,但仍然无法正常工作。可能我错过了一些非常简单的东西。任何帮助将不胜感激。
好吧,其实我的问题比较蠢。完成后:
sc.addFile("/[AbsolutePathTo]/Test.py")
我仍然需要像导入常规 python 文件一样导入 Test.py 文件:
import Test
那我可以打电话给
Test.func()
并且有效。我认为 "import Test" 不是必需的,因为我将文件添加到 spark 上下文中,但显然没有相同的效果。
感谢 mark91 为我指明了正确的方向。
2017 年 10 月 28 日更新:
如评论中所问,这里有关于 app.py
的更多详细信息
from pyspark import SparkContext
from pyspark.conf import SparkConf
conf = SparkConf()
conf.setMaster("local[4]")
conf.setAppName("Spark Stream")
sc = SparkContext(conf=conf)
sc.addFile("Test.py")
import Test
Test.func()
我的目标是将自定义 .py 文件导入我的 spark 应用程序并调用该文件中包含的一些函数
这是我尝试过的:
我有一个名为 Test.py 的测试文件,如下所示:
def func():
print "Import is working"
在我的 Spark 应用程序中,我执行以下操作(如文档中所述):
sc = SparkContext(conf=conf, pyFiles=['/[AbsolutePathTo]/Test.py'])
我也试过这个(在创建 Spark 上下文之后):
sc.addFile("/[AbsolutePathTo]/Test.py")
我什至在提交我的 spark 申请时尝试了以下方法:
./bin/spark-submit --packages com.datastax.spark:spark-cassandra-connector_2.10:1.5.0-M2 --py-files /[AbsolutePath]/Test.py ../Main/Code/app.py
然而,我总是得到一个名字错误:
NameError: name 'func' is not defined
当我在 app.py[ 中调用 func() 时=46=]。 (如果我尝试调用 Test.func())
,'Test' 会出现同样的错误最后,al 还尝试使用与上述相同的命令将文件导入 pyspark shell:
sc.addFile("/[AbsolutePathTo]/Test.py")
奇怪的是,我在导入时没有收到错误,但我仍然无法在不收到错误的情况下调用 func()。另外,不确定这是否重要,但我在一台机器上本地使用 spark。
我真的尝试了所有我能想到的方法,但仍然无法正常工作。可能我错过了一些非常简单的东西。任何帮助将不胜感激。
好吧,其实我的问题比较蠢。完成后:
sc.addFile("/[AbsolutePathTo]/Test.py")
我仍然需要像导入常规 python 文件一样导入 Test.py 文件:
import Test
那我可以打电话给
Test.func()
并且有效。我认为 "import Test" 不是必需的,因为我将文件添加到 spark 上下文中,但显然没有相同的效果。 感谢 mark91 为我指明了正确的方向。
2017 年 10 月 28 日更新:
如评论中所问,这里有关于 app.py
的更多详细信息from pyspark import SparkContext
from pyspark.conf import SparkConf
conf = SparkConf()
conf.setMaster("local[4]")
conf.setAppName("Spark Stream")
sc = SparkContext(conf=conf)
sc.addFile("Test.py")
import Test
Test.func()