如何在 Glue ETL 中启用 pySpark?

How to enable pySpark in Glue ETL?

我有一个非常简单的 Glue ETL 作业,代码如下:

from pyspark.context import SparkContext

sc = SparkContext.getOrCreate()
conf = sc.getConf()

print(conf.toDebugString())

作业是在启用 Redshift 连接的情况下创建的。执行作业时我得到:

No module named pyspark.context

public documentations 似乎都提到、指出并暗示了 pyspark 的可用性,但为什么我的环境抱怨它没有 pyspark?我缺少哪些步骤?

此致, 林

我使用:

from pyspark.context import SparkContext
from awsglue.context import GlueContext

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session

Python Shell 作业仅支持 Python 和 pandas、Scikit-learn 等库。它们不支持 PySpark,因此您应该创建一个作业类型 = Spark 和 ETL 语言 = Python 以使其工作。