从 Twitter JSON 文件中提取列名称

Question

我正在尝试使用 hadoop 分析 Twitter 数据。我根据之前的推文创建了一个配置单元table。现在我又下载了推特数据，问题是推文中出现了新的列，而以前的推文数据中没有。我的问题是，有什么方法可以找到推文的最大列数，以便我可以为其创建配置单元 table。到目前为止无助请帮助谢谢

Answer 1

我不知道要获取推文包含的所有列

我认为您应该使用像 AVRO 这样在内部存储元数据的存储格式并相应地更新模式，这样您就可以支持动态模式

Answer 2

如果你有 json 格式的推文，那么使用下面的查询

在 hive 中创建 table

CREATE EXTERNAL TABLE tweets (
   id BIGINT,
   created_at STRING,
   source STRING,
   favorited BOOLEAN,
   retweet_count INT,
   retweeted_status STRUCT<
      text:STRING,
      user:STRUCT<screen_name:STRING,name:STRING>>,
   entities STRUCT<
      urls:ARRAY<STRUCT<expanded_url:STRING>>,
      user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
      hashtags:ARRAY<STRUCT<text:STRING>>>,
   text STRING,
   user STRUCT<
      screen_name:STRING,
      name:STRING,
      friends_count:INT,
      followers_count:INT,
      statuses_count:INT,
      verified:BOOLEAN,
      utc_offset:INT,
      time_zone:STRING>,
   in_reply_to_screen_name STRING
) 
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe'
LOCATION '/user/hive/warehouse/tweets';

下载 jar 形式 http://files.cloudera.com/samples/hive-serdes-1.0-SNAPSHOT.jar 并添加

ADD JAR /home/kishore/hive-0.9.0/lib/hive-serdes-1.0-SNAPSHOT.jar;

从 Twitter JSON 文件中提取列名称

Extracting Column name from Twitter JSON File

twitter

json

hadoop

hive