如何在 pyspark 中将列添加到另一个数据框？

Question

我是 pyspark 的新手，我正在尝试对我的数据进行一些标记化。我有我的第一个数据框： reviewID|文字|星级

我根据 pyspark 文档对 "text" 进行了标记化：

tokenizer = Tokenizer(inputCol="text", outputCol="words")

countTokens = udf(lambda words: len(words), IntegerType())

tokenized = tokenizer.transform(df2)
tokenized.select("text", "words") \
    .withColumn("howmanywords", countTokens(col("words"))).show(truncate=False)

我得到了我的令牌，但现在我想要转换后的数据框看起来像这样：

字|星

"Words"是我的代币

所以我需要加入我的第一个数据框和标记化的数据框来获得类似的东西。请你帮助我好吗？如何将列添加到另一个数据框？

Answer 1

好的，我明白了。我只需要：

tokenizer = Tokenizer(inputCol="text", outputCol="words")


tokenized = tokenizer.transform(df2)
tokenized.select("text", "words", "stars").show(truncate=False)

有效！

如何在 pyspark 中将列添加到另一个数据框？

How to add column to one dataframe from another in pyspark?

python

nlp

tokenize

dataframe

pyspark