比较两个 PCollection 以进行删除
Compare two PCollections for removal
CloudSQL table 中每天都有最新数据可用,因此在将数据写入另一个 CloudSQL table 时,我需要比较现有数据并执行诸如删除已删除数据和更新现有数据并插入新数据。
您能否建议使用 Dataflow 管道执行此场景的最佳方法(最好 Java)。
我发现一件事是在 CloudSQL 中使用 upsert 函数,我们可以在 jdbc.JdbcIO 的帮助下完成 insert/update 记录。但我不知道如何识别要删除的集合。
您可以阅读旧表和新表并执行 Join,然后执行比较两者的 DoFn,只输出更改的元素,然后可以将其写入任何您喜欢的地方。
CloudSQL table 中每天都有最新数据可用,因此在将数据写入另一个 CloudSQL table 时,我需要比较现有数据并执行诸如删除已删除数据和更新现有数据并插入新数据。
您能否建议使用 Dataflow 管道执行此场景的最佳方法(最好 Java)。
我发现一件事是在 CloudSQL 中使用 upsert 函数,我们可以在 jdbc.JdbcIO 的帮助下完成 insert/update 记录。但我不知道如何识别要删除的集合。
您可以阅读旧表和新表并执行 Join,然后执行比较两者的 DoFn,只输出更改的元素,然后可以将其写入任何您喜欢的地方。