如何将多个 xls 文件中的 xls 数据加载到配置单元中?
How to load xls data from multiple xls file into hive?
我正在学习使用 Hadoop 执行大数据相关操作。
我需要对拆分为 8 个 xls 文件的数据集集合执行一些查询。每个xls文件有多个工作表,查询只涉及其中一个工作表。
数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html
我没有为我的任务使用任何商业发行版的 hadoop,只是在 VmWare 中设置了一个主虚拟机和一个从虚拟机,其中包含 Hadoop、Hive、Pig。
我是 Hadoop 和大数据的新手,所以如果有人能指导我如何进一步进行,我将不胜感激。
如果您需要有关查询的信息或其他任何信息,请告诉我。
谢谢。
在配置单元中,您不能像对 txt 或 csv 文件那样直接从 xls 将数据加载到 tables。
您有两个选择:
- 编写一个应用程序(例如,Java)来读取xls 文件并将它们转换为可以直接加载到配置单元中的文本或csv 文件。
或
- 您可以创建您自己提供的 serde(序列化器或反序列化器)来解析要加载到 table 中的 xls 数据。
两者各有利弊,但如果您打算使用与 HIVE 交互的应用程序进行加载、查询、转换等。您可以选择选项 1。但是,如果您打算通过 scripts/batch 等你可以选择选项 2.
我正在学习使用 Hadoop 执行大数据相关操作。
我需要对拆分为 8 个 xls 文件的数据集集合执行一些查询。每个xls文件有多个工作表,查询只涉及其中一个工作表。
数据集可以在这里下载:http://www.census.gov/hhes/www/hlthins/data/utilization/tables.html
我没有为我的任务使用任何商业发行版的 hadoop,只是在 VmWare 中设置了一个主虚拟机和一个从虚拟机,其中包含 Hadoop、Hive、Pig。
我是 Hadoop 和大数据的新手,所以如果有人能指导我如何进一步进行,我将不胜感激。
如果您需要有关查询的信息或其他任何信息,请告诉我。
谢谢。
在配置单元中,您不能像对 txt 或 csv 文件那样直接从 xls 将数据加载到 tables。
您有两个选择:
- 编写一个应用程序(例如,Java)来读取xls 文件并将它们转换为可以直接加载到配置单元中的文本或csv 文件。
或
- 您可以创建您自己提供的 serde(序列化器或反序列化器)来解析要加载到 table 中的 xls 数据。
两者各有利弊,但如果您打算使用与 HIVE 交互的应用程序进行加载、查询、转换等。您可以选择选项 1。但是,如果您打算通过 scripts/batch 等你可以选择选项 2.