PySpark:如何修复 'function' 对象没有属性 'rand' 错误?
PySpark: How do I fix 'function' object has no attribute 'rand' error?
我正在尝试从我的 PySpark Dataframe 中随机 select 100 行。为此,我想使用 :
中描述的代码
training_data= data.orderBy(F.rand()).limit(100)
但是我收到错误:
AttributeError: 'function' object has no attribute 'rand'
我通过以下方式导入了 rand():
from pyspark.sql.functions import rand as F
我尝试按照 post 中描述的方式导入 rand,但出现错误:
ModuleNotFoundError: No module named 'org'
我也试过这样使用函数:
training_data= data.orderBy(rand()).limit(100)
但随后出现以下名称错误:
NameError: name 'rand' is not defined
有人知道怎么解决吗?我是 PySpark 的新手,我想我在这里遗漏了一些明显的东西。请注意,我正在处理 Databricks。
谢谢
好的,我实际上通过执行以下操作实现了我想要的:
training_data, test_data = data.randomSplit([0.7, 0.3], seed = 100)
我正在尝试从我的 PySpark Dataframe 中随机 select 100 行。为此,我想使用
training_data= data.orderBy(F.rand()).limit(100)
但是我收到错误:
AttributeError: 'function' object has no attribute 'rand'
我通过以下方式导入了 rand():
from pyspark.sql.functions import rand as F
我尝试按照 post 中描述的方式导入 rand,但出现错误:
ModuleNotFoundError: No module named 'org'
我也试过这样使用函数:
training_data= data.orderBy(rand()).limit(100)
但随后出现以下名称错误:
NameError: name 'rand' is not defined
有人知道怎么解决吗?我是 PySpark 的新手,我想我在这里遗漏了一些明显的东西。请注意,我正在处理 Databricks。
谢谢
好的,我实际上通过执行以下操作实现了我想要的:
training_data, test_data = data.randomSplit([0.7, 0.3], seed = 100)