如何从远程 python 服务连接到 CDH 集群
how to connect to CDH cluster from Remote python service
我在 aws 上有一个 CDH 集群 运行。在挂接到 ECS 集群的不同 EC2 机器上也有一组服务 运行。都在一个 VPN 中。
我的用例是将来自我在 ec2 上的外部服务 运行 的数据写入 CDH hadoop 集群。
我正试图找出最好的方法。请在 python 中向我建议实现此目标的可能方法。
Apache Hadoop 提供 WebHDFS, which is an HTTP interface into HDFS operations. This allows you to manipulate files in HDFS using any Python HTTP client library such as httplib
, urllib
or urllib2
。事实上,您可以使用任何提供 HTTP 客户端库的编程语言来访问 WebHDFS。
您也可以使用 Pydoop, which provides a more direct integration between Python and HDFS. The Pydoop implementation uses LibHDFS,它是标准 HDFS Java 客户端的 C 包装器。因此,它将直接使用 HDFS RPC 协议而不是 HTTP。
我在 aws 上有一个 CDH 集群 运行。在挂接到 ECS 集群的不同 EC2 机器上也有一组服务 运行。都在一个 VPN 中。 我的用例是将来自我在 ec2 上的外部服务 运行 的数据写入 CDH hadoop 集群。 我正试图找出最好的方法。请在 python 中向我建议实现此目标的可能方法。
Apache Hadoop 提供 WebHDFS, which is an HTTP interface into HDFS operations. This allows you to manipulate files in HDFS using any Python HTTP client library such as httplib
, urllib
or urllib2
。事实上,您可以使用任何提供 HTTP 客户端库的编程语言来访问 WebHDFS。
您也可以使用 Pydoop, which provides a more direct integration between Python and HDFS. The Pydoop implementation uses LibHDFS,它是标准 HDFS Java 客户端的 C 包装器。因此,它将直接使用 HDFS RPC 协议而不是 HTTP。