Hdfs 和 Hbase:它是如何工作的?

Hdfs and Hbase: how it works?

大家好

我对大数据很陌生,我安装了 HDFS + Hbase 测试数据库,并使用 Talend Big Data(ETL)进行测试。

我想知道:如果我不通过 h​​base 直接将文件放在 HDFS 中,我将永远无法请求这些数据?我的意思是,如果我想过滤我想选择的数据,我必须读取整个文件,对吗?

非常感谢您的帮助!

HDFS 只是一个分布式文件系统,如果不通过中间组件,则无法查询文件。 Hbase 是一个 nosql 数据库,可将您的数据保存在 HDFS 上,当您需要随机访问数据时使用它。

如果您想将文件按原样存储在 HDFS 上并查询它们,您可以使用 Hive.

在它们上创建一个外部 table

最好的选择是在 HDFS 上的文件顶部使用配置单元。您可以在配置单元中使用分桶和分区来提高性能。