如何使用 Dataproc Pyspark 在 BigQuery 中创建外部 table

How to create external table in BigQuery using Dataproc Pyspark

我的用例包括使用 Pyspark 代码在 Bigquery 中创建外部 table。 数据源是 Google 云存储桶,其中 JSON 数据所在。 我正在将 JSON 数据读入数据框并想创建一个外部 Bigquery table。截至目前,table 正在创建,但它不是外部的。

df_view.write\
    .format("com.google.cloud.spark.bigquery")\
    .option('table', 'xyz-abc-abc:xyz_zone.test_table_yyyy')\
    .option("temporaryGcsBucket","abcd-xml-abc-warehouse")\
    .save(mode='append',path='gs://xxxxxxxxx/')

P.S。 - 我正在使用 spark-bigquery 连接器来实​​现我的目标。

如果有人遇到同样的问题,请告诉我。

目前 spark-bigquery-connector 不支持写入外部 table。请create an issue,我们会尽快添加。

您当然可以分两步完成:

  • 将 JSON 个文件写入 GCS。
  • 使用 BigQuery API 创建外部 table。