在 hadoop 中摄取数据后的标准流程
standard process after ingesting data in hadoop
我正在将数据从 oracle 导入到 Hadoop,然后我想将该数据保存到 hive 中。
将数据提取到 hadoop 后要遵循哪些步骤?
如何在提取的数据中执行数据清理或错误检查?
您可以使用 sqoop 和称为 Oraoop.For 数据清理的优化连接器将数据直接从 oracle 摄取到配置单元 table 我假设您的意思是处理空值,如果是这种情况,您可以使用提供的不同选项通过 sqoop 点赞
--null-string <null-string>
--null-non-string <null-string>
1.将数据提取到 hadoop 后要遵循哪些步骤?
不需要自己动手(导入数据到hadoop再传输到hive)
根据docs,
您只需要在导入命令中添加 --hive-import
。
更改配置单元table
The table name used in Hive is, by default, the same as that of the source table. You can control the output table name with the --hive-table
option.
覆盖配置单元table
If the Hive table already exists, you can specify the --hive-overwrite
option to indicate that existing table in hive must be replaced
@sachin 提到了数据中 NULL 值的处理。您可以查看 docs 了解更多详情
2。如何对摄取的数据进行数据清理或错误检查?
我从 "data cleaning" 假设你的意思是在 hadoop 中清理数据。
After your data is imported into HDFS or this step is omitted, Sqoop will generate a Hive script containing a CREATE TABLE
operation defining your columns using Hive’s types, and a LOAD DATA INPATH
statement to move the data files into Hive’s warehouse directory.
数据已移至 Hive。因此,临时 HDFS 位置中没有数据。
Troubleshooting docs 中提到了一些常见问题。您可以检查基础错误。
我正在将数据从 oracle 导入到 Hadoop,然后我想将该数据保存到 hive 中。
将数据提取到 hadoop 后要遵循哪些步骤?
如何在提取的数据中执行数据清理或错误检查?
您可以使用 sqoop 和称为 Oraoop.For 数据清理的优化连接器将数据直接从 oracle 摄取到配置单元 table 我假设您的意思是处理空值,如果是这种情况,您可以使用提供的不同选项通过 sqoop 点赞
--null-string <null-string>
--null-non-string <null-string>
1.将数据提取到 hadoop 后要遵循哪些步骤?
不需要自己动手(导入数据到hadoop再传输到hive)
根据docs,
您只需要在导入命令中添加 --hive-import
。
更改配置单元table
The table name used in Hive is, by default, the same as that of the source table. You can control the output table name with the
--hive-table
option.
覆盖配置单元table
If the Hive table already exists, you can specify the
--hive-overwrite
option to indicate that existing table in hive must be replaced
@sachin 提到了数据中 NULL 值的处理。您可以查看 docs 了解更多详情
2。如何对摄取的数据进行数据清理或错误检查?
我从 "data cleaning" 假设你的意思是在 hadoop 中清理数据。
After your data is imported into HDFS or this step is omitted, Sqoop will generate a Hive script containing a
CREATE TABLE
operation defining your columns using Hive’s types, and aLOAD DATA INPATH
statement to move the data files into Hive’s warehouse directory.
数据已移至 Hive。因此,临时 HDFS 位置中没有数据。
Troubleshooting docs 中提到了一些常见问题。您可以检查基础错误。