Zeppelin - 两次相同的 show(),两个不同的结果
Zeppelin - twice the same show(), two different results
我是 Zeppelin 的新手,也许我的问题很幼稚。一开始,我得到的基本数据是这样的:
import org.apache.spark.sql.functions.sql
val dfOriginal = sql("SELECT CAST(event_type_id AS STRING), event_time FROM sl_event SORT BY event_time LIMIT 200")
+-------------+--------------------+
|event_type_id| event_time|
+-------------+--------------------+
| 23882|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 25681|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 2370|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
...
我有 200 条这样的记录。
我这样计算偶数类型的出现次数:
val dfIndividual = dfOriginal.groupBy("event_type_id").count().sort(-col("count"))
dfIndividual.show(200)
我很困惑:每当我执行此操作(在 Zeppelin 中)时,我都会得到 不同的 结果。例如:
+-------------+-----+
|event_type_id|count|
+-------------+-----+
| 24222| 30|
| 10644| 16|
| 21164| 9|
...
或者 - 几秒钟后:
+-------------+-----+
|event_type_id|count|
+-------------+-----+
| 5715| 34|
| 3637| 19|
| 3665| 17|
| 9280| 13|
...
这两个结果之间的差异让我非常害怕。问题出在哪里?是齐柏林吗?底层火花?如何确保我在这里获得可重现的结果?
我能想到的唯一原因是
a) 来源 table sl_event
同时发生了变化。由于您没有在结果中缓存,您调用的任何操作(例如 show
)都会重新评估所有内容
或 b) 您有许多具有相同 event_time
的事件,因此按 event_time limit 200
排序不会给您一致的结果,请在您的第一个查询中尝试 SORT BY event_time, event_type_id LIMIT 200
,甚至更好使用你的第二个排序列的唯一 ID
我是 Zeppelin 的新手,也许我的问题很幼稚。一开始,我得到的基本数据是这样的:
import org.apache.spark.sql.functions.sql
val dfOriginal = sql("SELECT CAST(event_type_id AS STRING), event_time FROM sl_event SORT BY event_time LIMIT 200")
+-------------+--------------------+
|event_type_id| event_time|
+-------------+--------------------+
| 23882|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 25681|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
| 2370|2018-05-03 11:41:...|
| 23882|2018-05-03 11:41:...|
...
我有 200 条这样的记录。
我这样计算偶数类型的出现次数:
val dfIndividual = dfOriginal.groupBy("event_type_id").count().sort(-col("count"))
dfIndividual.show(200)
我很困惑:每当我执行此操作(在 Zeppelin 中)时,我都会得到 不同的 结果。例如:
+-------------+-----+
|event_type_id|count|
+-------------+-----+
| 24222| 30|
| 10644| 16|
| 21164| 9|
...
或者 - 几秒钟后:
+-------------+-----+
|event_type_id|count|
+-------------+-----+
| 5715| 34|
| 3637| 19|
| 3665| 17|
| 9280| 13|
...
这两个结果之间的差异让我非常害怕。问题出在哪里?是齐柏林吗?底层火花?如何确保我在这里获得可重现的结果?
我能想到的唯一原因是
a) 来源 table sl_event
同时发生了变化。由于您没有在结果中缓存,您调用的任何操作(例如 show
)都会重新评估所有内容
或 b) 您有许多具有相同 event_time
的事件,因此按 event_time limit 200
排序不会给您一致的结果,请在您的第一个查询中尝试 SORT BY event_time, event_type_id LIMIT 200
,甚至更好使用你的第二个排序列的唯一 ID