PySpark:如何修复 'function' 对象没有属性 'rand' 错误?

PySpark: How do I fix 'function' object has no attribute 'rand' error?

我正在尝试从我的 PySpark Dataframe 中随机 select 100 行。为此,我想使用 :

中描述的代码
training_data= data.orderBy(F.rand()).limit(100)

但是我收到错误:

AttributeError: 'function' object has no attribute 'rand'

我通过以下方式导入了 rand():

from pyspark.sql.functions import rand as F

我尝试按照 post 中描述的方式导入 rand,但出现错误:

ModuleNotFoundError: No module named 'org'

我也试过这样使用函数:

training_data= data.orderBy(rand()).limit(100)

但随后出现以下名称错误:

NameError: name 'rand' is not defined

有人知道怎么解决吗?我是 PySpark 的新手,我想我在这里遗漏了一些明显的东西。请注意,我正在处理 Databricks。

谢谢

好的,我实际上通过执行以下操作实现了我想要的:

training_data, test_data = data.randomSplit([0.7, 0.3], seed = 100)