如何使用增量数据在 pyspark 中创建数据框

How to use incremental data to create dataframes in pyspark

我在配置单元中有一些 table。这些 table 获取增量附加到它们的数据。

现在，我今天在 hive 中使用 table 在 pyspark 中创建了一个 data frame。我已经对 data frame 进行了转置，并在配置单元中使用新的转置 data frame 创建了另一个 table。

假设明天我在配置单元 table 中获得了 100 个新行的新增量数据。现在我只想使用这 100 个新行创建一个新的 data frame 并进行转置并附加到现有的转置配置单元 table.

我怎样才能使用 pyspark 实现它。

Hive 本身的语义不足以提供此功能。数据必须可以通过内容、文件或元数据过程进行识别。

可按内容识别： 数据包含时间或日期戳，允许您针对 table 创建查询，但仅过滤掉那些行感兴趣。

可通过文件识别： 跳过 Hive 界面并尝试使用 Modify 或 Change 时间戳在 HDFS/POSIX 上定位数据例如，单个文件。直接将文件加载为新数据框。

可通过元数据进程识别： 在我构建的架构中，我使用 Apache NiFi、Kafka 和 Cloudera Navigator 来提供有关文件和数据摄取的元数据沿袭。如果您的架构包含有关摄取数据的元数据，您可以利用它来识别您需要的 files/records。

我在这里遇到了同样的问题，我正在研究Apache Hudi解决方案，不幸的是，新的增量数据需要通过 HUDI 存储，因此可以生成元数据。这里是关于如何在 AWS 环境中使用 Hudi 数据集的quick guide。