如何使用增量数据在 pyspark 中创建数据框
How to use incremental data to create dataframes in pyspark
我在配置单元中有一些 table。这些 table 获取增量附加到它们的数据。
现在,我今天在 hive 中使用 table 在 pyspark 中创建了一个 data frame
。我已经对 data frame
进行了转置,并在配置单元中使用新的转置 data frame
创建了另一个 table。
假设明天我在配置单元 table 中获得了 100 个新行的新增量数据。现在我只想使用这 100 个新行创建一个新的 data frame
并进行转置并附加到现有的转置配置单元 table.
我怎样才能使用 pyspark 实现它。
Hive 本身的语义不足以提供此功能。数据必须可以通过内容、文件或元数据过程进行识别。
可按内容识别: 数据包含时间或日期戳,允许您针对 table 创建查询,但仅过滤掉那些行感兴趣。
可通过文件识别: 跳过 Hive 界面并尝试使用 Modify
或 Change
时间戳在 HDFS/POSIX 上定位数据例如,单个文件。直接将文件加载为新数据框。
可通过元数据进程识别: 在我构建的架构中,我使用 Apache NiFi、Kafka 和 Cloudera Navigator 来提供有关文件和数据摄取的元数据沿袭。如果您的架构包含有关摄取数据的元数据,您可以利用它来识别您需要的 files/records。
我在这里遇到了同样的问题,我正在研究Apache Hudi解决方案,不幸的是,新的增量数据需要通过 HUDI 存储,因此可以生成元数据。
这里是关于如何在 AWS 环境中使用 Hudi 数据集的quick guide。
我在配置单元中有一些 table。这些 table 获取增量附加到它们的数据。
现在,我今天在 hive 中使用 table 在 pyspark 中创建了一个 data frame
。我已经对 data frame
进行了转置,并在配置单元中使用新的转置 data frame
创建了另一个 table。
假设明天我在配置单元 table 中获得了 100 个新行的新增量数据。现在我只想使用这 100 个新行创建一个新的 data frame
并进行转置并附加到现有的转置配置单元 table.
我怎样才能使用 pyspark 实现它。
Hive 本身的语义不足以提供此功能。数据必须可以通过内容、文件或元数据过程进行识别。
可按内容识别: 数据包含时间或日期戳,允许您针对 table 创建查询,但仅过滤掉那些行感兴趣。
可通过文件识别: 跳过 Hive 界面并尝试使用 Modify
或 Change
时间戳在 HDFS/POSIX 上定位数据例如,单个文件。直接将文件加载为新数据框。
可通过元数据进程识别: 在我构建的架构中,我使用 Apache NiFi、Kafka 和 Cloudera Navigator 来提供有关文件和数据摄取的元数据沿袭。如果您的架构包含有关摄取数据的元数据,您可以利用它来识别您需要的 files/records。
我在这里遇到了同样的问题,我正在研究Apache Hudi解决方案,不幸的是,新的增量数据需要通过 HUDI 存储,因此可以生成元数据。 这里是关于如何在 AWS 环境中使用 Hudi 数据集的quick guide。