与具有硬盘存储的服务器相比,AWS EMR 在 S3 上的性能

Performance of AWS EMR over S3 compared to Server with harddisk storage

我们有来自客户的大约 10 TB 数据,这些数据必须使用配置单元加载和查询并创建聚合表,这些数据再次必须被多次查询。

我打算使用 AWS S3 将 10 TB 数据存储在一个桶中,并使用 EMR 查询数据。

是可行的方法还是性能会很差?

可以使用哪些替代方法来加快查询速度?

是的,这是可行的。这是一个非常常见的用例(使用 S3 与水化 HDFS)。提供关于性能的明确声明的挑战是 "it depends"。我认为 每美元 的性能无疑比 S3 更好,但是 straight-up 性能,这取决于您如何组织数据以及您与该数据的交互方式,很可能是更好地处理本地数据(如您所料)。

以下是关于此主题的一些相关文章:

在优化 S3 中的数据访问时需要考虑的事项: