如何使用 dataflowsdk 将数据从 bigquery 转录到 bigquery?
How to transcribe data from bigquery to bigquery with dataflowsdk?
在构建源为 BigQueryIO.Read 的管道时,您会得到一组要使用的 TableRow 对象。
我基本上想对那些 TableRow 对象进行一些小的更改,然后使用 BigQueryIO.Write 将对象输出到新的 table。
但是,我 运行 遇到了一个问题,即 TableRow 实际上与原始 table 结构不匹配,即。它的键中带有“_”而不是“。”,而且完全是扁平的。 (因此与原始架构不匹配)。
我是否遗漏了一个可以使 TableRow 正常运行的步骤?
这看起来是一个相当简单的工作流程,所以当我遇到这个问题时我有点惊讶。
目标:
BigQueryIO.Read -> TableRow -> BigQueryIO.Write
您可以通过指定 .withoutResultFlattening()
来避免 TableRow
的扁平化
顺便说一句,下划线作为分隔符的扁平化和选择都是由 BigQuery 完成的,并由查询选项控制。
在构建源为 BigQueryIO.Read 的管道时,您会得到一组要使用的 TableRow 对象。
我基本上想对那些 TableRow 对象进行一些小的更改,然后使用 BigQueryIO.Write 将对象输出到新的 table。
但是,我 运行 遇到了一个问题,即 TableRow 实际上与原始 table 结构不匹配,即。它的键中带有“_”而不是“。”,而且完全是扁平的。 (因此与原始架构不匹配)。
我是否遗漏了一个可以使 TableRow 正常运行的步骤?
这看起来是一个相当简单的工作流程,所以当我遇到这个问题时我有点惊讶。
目标:
BigQueryIO.Read -> TableRow -> BigQueryIO.Write
您可以通过指定 .withoutResultFlattening()
TableRow
的扁平化
顺便说一句,下划线作为分隔符的扁平化和选择都是由 BigQuery 完成的,并由查询选项控制。