过滤 RDD 计算数据集

Question

我正在练习使用 apache spark 并尝试进行一些计算。虽然，我能够达到我想要的结果，但我必须尝试两种不同的方法才能奏效。

我有一个现有的数据集，我从中创建了一个 RDD。

"RT @NigeriaNewsdesk: Chibok schoolgirls were swapped for 5 Boko Haram commanders via @todayng"

我想过滤并获取以 @ 开头的单词，所以我从现有数据集创建了一个 RDD。

usernameFile = sc.parallelize(tweets)
username = usernameFile.flatMap(lambda line: line.split()).filter(lambda x: x.startswith('@')).collect()
print(username)

我得到了这样的东西

[u'R', u'T', u' ', u'@', u'N', u'i', u'g', u'e', u'r', u'i', u'a', u'N', u'e', u'w', u's', u'd', u'e', u's', u'k', u':', u' ', u'C', u'h', u'i', u'b', u'o', u'k', u' ', u's', u'c', u'h', u'o', u'o', u'l', u'g', u'i', u'r', u'l', u's', u' ', u'w', u'e', u'r', u'e', u' ', u's', u'w', u'a', u'p', u'p', u'e', u'd', u' ', u'f'

我也附上在第二次尝试中，我做了这样的事情

tweets = tweets.split(" ")
usernameFile = sc.parallelize(tweets)
username = usernameFile.flatMap(lambda line: line.split()).filter(lambda x: x.startswith('@')).collect()
print(username)
print("username done")

第二次尝试非常成功，但我的问题是为什么我必须在并行化数据集之前拆分它？

如果不先这样做，我能达到同样的效果吗？

tweets = tweets.split(" ")

谢谢。

Answer 1

直接这样映射就可以了：

import re

tweets = sc.parallelize([
    "RT @foo abc @bar"
])

tweets.flatMap(lambda s: re.findall("@\w+", s))

再简单不过了:)

过滤 RDD 计算数据集

Filtering RDD computation dataset

filter

flatmap

apache-spark

rdd