在 ec2 上托管的 apache spark 中使用 AWS EMRFS

Using AWS EMRFS in apache spark hosted on ec2

如果我在 ec2(或 kubernetes)上 运行 spark,我可以使用 s3/emrfs 代替 hdfs 吗?这个产品准备好了吗?它是否对来自 s3 的 read/process 数据使用并行性?

提前致谢

不,EMRFS 仅适用于 EMR,是使 S3 看起来像 HDFS 一部分的简单方法。对于 EC2,您可以连接到 S3,但这不如使用 EMR 容易。 S3 与 EC2 没有紧密耦合。是的,应用了并行性,但不是根据 MR 数据位置、工作人员和数据节点。

EMR 使用具有专有功能的闭源 S3 连接器 "emrfs"。您看不到源代码,无法获得其他任何人的支持 并且除非您 运行 emr 才能使用它。对于独立应用程序:s3a 连接器很棒但不能完全替代 HDFS