20 分钟后 databricks 集群上的 2G csv 文件不能像 count(1) 那样少

2G csv file on databricks cluster after 20 minutes can't get as little as count(1)

该文件是一个 2.6Gig 的 csv 文件，有 30 列，不相信任何超过 50 个字符的宽度。

我spark.read这个文件，没有错误

我 createOrReplaceTempView 并且 select 前 1000 个，没有错误。

然后我从 tempView select count(1)。

20 分钟后，我取消了计数 (1)，因为我仍然没有行计数。

在 5 分钟的标记处，我可以看到 49 兆读取和大约 250 万条记录，但 Spark UI 似乎停滞在该点，直到被取消。

我是这个生产级集群中唯一一个拥有 8 个节点和 256G 内存的集群。

你觉得我应该追求什么。如果我至少能得到一个计数，我可能会觉得我可以在保存到带分区的增量之后继续。

尝试以下操作：