在 AWS saveAsTable 中丢失创建的文件
Lost created files in AWS saveAsTable
我是 pyspark、一般 spark 和 AWS 的新手。
我尝试使用以下方式保存 table:
# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)
我以为我正在保存一个 SQL table,但显然这是一个 Hive table(我刚刚发现它存在)。
我在另一个 post 上读到它会到达位置 s3://my_bucket_name/warehouse
还有一个 post 它转到 hdfs://user/hive/warehouse
我在任何地方都找不到这个 table。请帮忙。
或许你可以试试下面的方法
1)
df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite',
path='s3a://bucket/foo')
2) 您可以使用
创建一个临时 table
myDf.createOrReplaceTempView("tempTable")
然后使用 sqlcontext 您可以为 tempTable
创建配置单元 table
sqlContext.sql("create table table_name as select * from tempTable");
我是 pyspark、一般 spark 和 AWS 的新手。
我尝试使用以下方式保存 table:
# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)
我以为我正在保存一个 SQL table,但显然这是一个 Hive table(我刚刚发现它存在)。
我在另一个 post 上读到它会到达位置 s3://my_bucket_name/warehouse
还有一个 post 它转到 hdfs://user/hive/warehouse
我在任何地方都找不到这个 table。请帮忙。
或许你可以试试下面的方法
1)
df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite',
path='s3a://bucket/foo')
2) 您可以使用
创建一个临时 tablemyDf.createOrReplaceTempView("tempTable")
然后使用 sqlcontext 您可以为 tempTable
创建配置单元 tablesqlContext.sql("create table table_name as select * from tempTable");