由 OneHotEncoder 表示的 Spark 结构

Spark struct represented by OneHotEncoder

我有一个包含两列的数据框,

+---+-------+
| id|  fruit|
+---+-------+
|  0|  apple|
|  1| banana|
|  2|coconut|
|  1| banana|
|  2|coconut|
+---+-------+

我还有一个包含所有项目的通用列表,

fruitList: Seq[String] = WrappedArray(apple, coconut, banana)

现在我想在数据框中创建一个包含 1、0 的数组的新列,其中 1 表示该项目存在,0 表示该行不存在该项目。

期望的输出

    +---+-----------+
    | id|  fruitlist|
    +---+-----------+
    |  0|  [1,0,0]  |
    |  1| [0,1,0]   |
    |  2|[0,0,1]    |
    |  1| [0,1,0]   |
    |  2|[0,0,1]    |
    +---+-----------+

这是我试过的,

import org.apache.spark.ml.feature.{OneHotEncoder, StringIndexer}

val df = spark.createDataFrame(Seq(
  (0, "apple"),
  (1, "banana"),
  (2, "coconut"),
  (1, "banana"),
  (2, "coconut")
)).toDF("id", "fruit")

df.show
import org.apache.spark.sql.functions._
val fruitList = df.select(collect_set("fruit")).first().getAs[Seq[String]](0)
print(fruitList)

我尝试用 OneHotEncoder 解决这个问题,但在转换为密集向量后结果是这样的,这不是我需要的。

    +---+-------+----------+-------------+---------+
| id|  fruit|fruitIndex|     fruitVec|       vd|
+---+-------+----------+-------------+---------+
|  0|  apple|       2.0|    (2,[],[])|[0.0,0.0]|
|  1| banana|       1.0|(2,[1],[1.0])|[0.0,1.0]|
|  2|coconut|       0.0|(2,[0],[1.0])|[1.0,0.0]|
|  1| banana|       1.0|(2,[1],[1.0])|[0.0,1.0]|
|  2|coconut|       0.0|(2,[0],[1.0])|[1.0,0.0]|
+---+-------+----------+-------------+---------+

如果您有一个集合

val fruitList: Seq[String] = Array("apple", "coconut", "banana")

然后你可以使用内置函数udf函数

内置函数(数组、时间和点亮)

import org.apache.spark.sql.functions._
df.withColumn("fruitList", array(fruitList.map(x => when(lit(x) === col("fruit"),1).otherwise(0)): _*)).show(false)

udf 函数

import org.apache.spark.sql.functions._
def containedUdf = udf((fruit: String) => fruitList.map(x => if(x == fruit) 1 else 0))

df.withColumn("fruitList", containedUdf(col("fruit"))).show(false)

哪个应该给你

+---+-------+---------+
|id |fruit  |fruitList|
+---+-------+---------+
|0  |apple  |[1, 0, 0]|
|1  |banana |[0, 0, 1]|
|2  |coconut|[0, 1, 0]|
|1  |banana |[0, 0, 1]|
|2  |coconut|[0, 1, 0]|
+---+-------+---------+

udf 函数易于理解且直接,处理原始数据类型,但如果优化和快速的内置函数可用于执行相同任务,则应避免使用该函数

希望回答对你有帮助