NameError: name 'split' is not defined with Spark
NameError: name 'split' is not defined with Spark
我一直在使用 Spark 处理大型数据集。上周当我 运行 以下代码行时它运行良好,现在它抛出错误:NameError: name 'split' 未定义。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?这是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。
test_df = spark_df.withColumn(
"Keywords",
split(col("Keywords"), "\|")
)
可以使用pyspark.sql.functions.split()
,但首先需要导入这个函数:
from pyspark.sql.functions import split
最好只显式导入您需要的函数。 Do not do from pyspark.sql.functions import *
.
我一直在使用 Spark 处理大型数据集。上周当我 运行 以下代码行时它运行良好,现在它抛出错误:NameError: name 'split' 未定义。有人可以解释为什么这不起作用,我该怎么办?名称拆分未定义...我应该定义方法吗?这是我应该导入的依赖项吗?文档没有说我必须导入任何东西才能使用 split 方法。下面的代码。
test_df = spark_df.withColumn(
"Keywords",
split(col("Keywords"), "\|")
)
可以使用pyspark.sql.functions.split()
,但首先需要导入这个函数:
from pyspark.sql.functions import split
最好只显式导入您需要的函数。 Do not do from pyspark.sql.functions import *
.