20 分钟后 databricks 集群上的 2G csv 文件不能像 count(1) 那样少

2G csv file on databricks cluster after 20 minutes can't get as little as count(1)

该文件是一个 2.6Gig 的 csv 文件,有 30 列,不相信任何超过 50 个字符的宽度。

我spark.read这个文件,没有错误

我 createOrReplaceTempView 并且 select 前 1000 个,没有错误。

然后我从 tempView select count(1)。

20 分钟后,我取消了计数 (1),因为我仍然没有行计数。

在 5 分钟的标记处,我可以看到 49 兆读取和大约 250 万条记录,但 Spark UI 似乎停滞在该点,直到被取消。

我是这个生产级集群中唯一一个拥有 8 个节点和 256G 内存的集群。

你觉得我应该追求什么。如果我至少能得到一个计数,我可能会觉得我可以在保存到带分区的增量之后继续。

尝试以下操作:

  1. 在注册临时视图之前缓存数据。
  2. 在注册临时视图之前对数据进行重新分区。