与具有硬盘存储的服务器相比,AWS EMR 在 S3 上的性能
Performance of AWS EMR over S3 compared to Server with harddisk storage
我们有来自客户的大约 10 TB 数据,这些数据必须使用配置单元加载和查询并创建聚合表,这些数据再次必须被多次查询。
我打算使用 AWS S3
将 10 TB 数据存储在一个桶中,并使用 EMR
查询数据。
是可行的方法还是性能会很差?
可以使用哪些替代方法来加快查询速度?
是的,这是可行的。这是一个非常常见的用例(使用 S3 与水化 HDFS)。提供关于性能的明确声明的挑战是 "it depends"。我认为 每美元 的性能无疑比 S3 更好,但是 straight-up 性能,这取决于您如何组织数据以及您与该数据的交互方式,很可能是更好地处理本地数据(如您所料)。
以下是关于此主题的一些相关文章:
- Improving Spark Performance With Amazon S3
- AWS EMR performance HDFS vs S3
- Top 5 Reasons for Choosing S3 over HDFS
在优化 S3 中的数据访问时需要考虑的事项:
我们有来自客户的大约 10 TB 数据,这些数据必须使用配置单元加载和查询并创建聚合表,这些数据再次必须被多次查询。
我打算使用 AWS S3
将 10 TB 数据存储在一个桶中,并使用 EMR
查询数据。
是可行的方法还是性能会很差?
可以使用哪些替代方法来加快查询速度?
是的,这是可行的。这是一个非常常见的用例(使用 S3 与水化 HDFS)。提供关于性能的明确声明的挑战是 "it depends"。我认为 每美元 的性能无疑比 S3 更好,但是 straight-up 性能,这取决于您如何组织数据以及您与该数据的交互方式,很可能是更好地处理本地数据(如您所料)。
以下是关于此主题的一些相关文章:
- Improving Spark Performance With Amazon S3
- AWS EMR performance HDFS vs S3
- Top 5 Reasons for Choosing S3 over HDFS
在优化 S3 中的数据访问时需要考虑的事项: