蜂巢。加载带有动态列标题的 CSV
HIVE. Loading CSV headered with dynamic columns
我可以将带有 headers 的 CSV 文件加载到配置单元 table 中吗?文件 具有动态列数吗?
例如;
我创建了外部 table
CREATE EXTERNAL TABLE art_stat(art sting, rate1 string, rate2 string, prop1 string,prop2 string)
...
我有 headers 的 CSV 文件
File1(只有三列):
ART,RATE1,PROP2
apple,109,red
apple,90,green
grape,10,red
......
File2(只有道具列):
ART,PROP1,PROP2
candy,109,black
cooky,90,brown
grape,10,red
......
如何使用标准配置单元工具将这些文件加载到我的 table 中?
我有一个想法是创建 bash 脚本,该脚本使用当前列创建临时 table,然后将数据从临时 table 加载到目标 table
有什么想法吗?
我找到了决定。正在为动态列使用地图类型。
创建 table art_data(art string, D map<string,string>)
。我制作了自定义 SerDe 库以将动态格式的 csv 文件传递到 map
列
的常量格式
我可以将带有 headers 的 CSV 文件加载到配置单元 table 中吗?文件 具有动态列数吗?
例如;
我创建了外部 table
CREATE EXTERNAL TABLE art_stat(art sting, rate1 string, rate2 string, prop1 string,prop2 string)
...
我有 headers 的 CSV 文件 File1(只有三列):
ART,RATE1,PROP2
apple,109,red
apple,90,green
grape,10,red
......
File2(只有道具列):
ART,PROP1,PROP2
candy,109,black
cooky,90,brown
grape,10,red
......
如何使用标准配置单元工具将这些文件加载到我的 table 中?
我有一个想法是创建 bash 脚本,该脚本使用当前列创建临时 table,然后将数据从临时 table 加载到目标 table
有什么想法吗?
我找到了决定。正在为动态列使用地图类型。
创建 table art_data(art string, D map<string,string>)
。我制作了自定义 SerDe 库以将动态格式的 csv 文件传递到 map
列