Pyspark sql 计数 returns 与纯 sql 不同的行数

Question

我已经开始在我的一个项目中使用 pyspark。我正在测试不同的命令来探索库的功能，但我发现了一些我不明白的东西。

取此代码：

from pyspark import SparkContext
from pyspark.sql import HiveContext
from pyspark.sql.dataframe import Dataframe

sc = SparkContext(sc)
hc = HiveContext(sc)

hc.sql("use test_schema")
hc.table("diamonds").count()

最后count()操作returns53941条记录。如果我运行而不是 Hive 中钻石的 select count(*)，我得到 53940。

pyspark 计数是否包括 header？

我试图调查：

df = hc.sql("select * from diamonds").collect() df[0] df[1]

查看是否包含 header：

df[0] --> Row(carat=None, cut='cut', color='color', clarity='clarity', depth=None, table=None, price=None, x=None, y=None, z=None) df[1] -- > Row(carat=0.23, cut='Ideal', color='E', clarity='SI2', depth=61.5, table=55, price=326, x=3.95, y=3.98, z=2.43)

第 0 个元素看起来不像 header。

有人对此有解释吗？

谢谢！麦酒

Answer 1

当使用过时的统计信息来加速计算时，Hive 可能会给出不正确的计数。要查看这是否是问题所在，请在 Hive 中尝试：

SET hive.compute.query.using.stats=false;
SELECT COUNT(*) FROM diamonds;

或者，刷新统计信息。如果您的 table 未分区：

ANALYZE TABLE diamonds COMPUTE STATISTICS;
SELECT COUNT(*) FROM diamonds;

如果是分区的：

ANALYZE TABLE diamonds PARTITION(partition_column) COMPUTE STATISTICS;

再看看你的第一行（df[0] 在你的问题中）。它确实看起来像是格式不正确的 header 行。

Pyspark sql 计数 returns 与纯 sql 不同的行数

Pyspark sql count returns different number of rows than pure sql

hive

apache-spark

pyspark

pyspark-sql