将 RDD 加载到配置单元中
Load an RDD into hive
我想在 spark 版本 1 中使用 pyspark 将 RDD (k=table_name, v=content) 加载到分区配置单元 table(年、月、日)中。6.x
整个尝试使用此 SQL 查询的逻辑:
ALTER TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% DROP IF EXISTS PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);LOAD DATA INTO TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);
有人可以给点建议吗?
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
df = spark.sparkContext.parallelize([(1, 'cat', '2016-12-20'), (2, 'dog', '2016-12-21')])
df = spark.createDataFrame(df, schema=['id', 'val', 'dt'])
df.write.saveAsTable(name='default.test', format='orc', mode='overwrite', partitionBy='dt')
使用 enableHiveSupport() 和 df.write.saveAsTable()
我想在 spark 版本 1 中使用 pyspark 将 RDD (k=table_name, v=content) 加载到分区配置单元 table(年、月、日)中。6.x
整个尝试使用此 SQL 查询的逻辑:
ALTER TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% DROP IF EXISTS PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);LOAD DATA INTO TABLE db_schema.%FILENAME_WITHOUT_EXTENSION% PARTITION (year=%YEAR%, month=%MONTH%, day=%DAY%);
有人可以给点建议吗?
spark = SparkSession.builder.enableHiveSupport().getOrCreate()
df = spark.sparkContext.parallelize([(1, 'cat', '2016-12-20'), (2, 'dog', '2016-12-21')])
df = spark.createDataFrame(df, schema=['id', 'val', 'dt'])
df.write.saveAsTable(name='default.test', format='orc', mode='overwrite', partitionBy='dt')
使用 enableHiveSupport() 和 df.write.saveAsTable()