hadoop 插入性能与数据库

hadoop insert performance vs database

我有 3 个服务器,想测试 hadoop 性能。

将数据加载到 hadoop 是否比加载到 cassandra 等数据库更快

如果我想使用 impala,它会减慢数据插入速度吗?

Is loading data into hadoop faster than to databases like casssandra ?

一般是的。将文件加载到 Hadoop 中只是一个数据复制操作。它不能直接与数据库上传相提并论。

Vanilla map-reduce 适用于批处理。 Cassandra 速度很快,但它仍然需要对传入数据进行排序和复制。最好和hbase、kudu、scylladb等系统对比一下

and if I want use impala, does it slow down the data insertion?

没有。 Impala 的数据插入器(称为 datasink)在磁盘 IOs 方面质量很好。它使用 HDFS 的短路功能来减少开销。在许多数据格式中,它应该比普通的 map-reduce 更快,特别是 parquet。