在 AWS saveAsTable 中丢失创建的文件

Question

我是 pyspark、一般 spark 和 AWS 的新手。

我尝试使用以下方式保存 table：

# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)

我以为我正在保存一个 SQL table，但显然这是一个 Hive table（我刚刚发现它存在）。

我在另一个 post 上读到它会到达位置 s3://my_bucket_name/warehouse

还有一个 post 它转到 hdfs://user/hive/warehouse

我在任何地方都找不到这个 table。请帮忙。

Answer 1

或许你可以试试下面的方法

1)

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

2) 您可以使用

创建一个临时 table

myDf.createOrReplaceTempView("tempTable")

然后使用 sqlcontext 您可以为 tempTable

创建配置单元 table

sqlContext.sql("create table table_name as select * from tempTable");

在 AWS saveAsTable 中丢失创建的文件

Lost created files in AWS saveAsTable

hive

amazon-s3

amazon-web-services

pyspark

pyspark-sql