如何查询包含集合的 Spark Dataframe 列中元素的存在?
How to query the presence of an element inside a Spark Dataframe Column that contains a set?
我有一个 spark 数据框,其中一列的类型为 Set<text>
。
此列包含一组字符串,例如 ["eenie","meenie","mo"]
。
如何过滤整个数据框的内容,以便
我只得到那些(例如)在集合中包含值 eenie
的行?
我正在寻找类似于
的东西
dataframe.where($"list".contains("eenie"))
上面的例子只适用于列列表的内容是字符串而不是Set的情况。有哪些替代方案适合我的情况?
编辑:我的问题不是重复的。该问题中的用户有一组值,并且想知道哪些值位于特定列中。我有一个包含集合的列,我想知道特定值是否是该集合的一部分。我的做法恰恰相反。
尝试:
import org.apache.spark.sql.functions.array_contains
dataframe.where(array_contains($"list", "eenie"))
我有一个 spark 数据框,其中一列的类型为 Set<text>
。
此列包含一组字符串,例如 ["eenie","meenie","mo"]
。
如何过滤整个数据框的内容,以便
我只得到那些(例如)在集合中包含值 eenie
的行?
我正在寻找类似于
的东西dataframe.where($"list".contains("eenie"))
上面的例子只适用于列列表的内容是字符串而不是Set的情况。有哪些替代方案适合我的情况?
编辑:我的问题不是重复的。该问题中的用户有一组值,并且想知道哪些值位于特定列中。我有一个包含集合的列,我想知道特定值是否是该集合的一部分。我的做法恰恰相反。
尝试:
import org.apache.spark.sql.functions.array_contains
dataframe.where(array_contains($"list", "eenie"))