是否可以使用 AWS Glue Connection 创建数据源?
Is it possible to use AWS Glue Connection to create a data source?
我正在尝试访问 AWS Glue 作业脚本中私有子网中的数据库。据文档中所述,可以使用不同的 "connection types" 和适当的 "connection options" 创建数据源,但它们不支持 VPC 设置。
唯一支持 VPC 设置的是 AWS Glue Connection,但我找不到如何使用 AWS Glue Connection 创建 Spark 数据源的方法。
或者也许有一些解决方法?
请参阅此 guide 中的步骤 8,在添加 Glue jdbc 连接后,创建一个爬网程序以将 table 元数据从源数据库导入 AWS Glue 数据目录。
然后您可以像这样在 Glue 作业中访问 table:
df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")
或使用 Spark:
df = spark.sql("SELECT * FROM db1.table1")
我正在尝试访问 AWS Glue 作业脚本中私有子网中的数据库。据文档中所述,可以使用不同的 "connection types" 和适当的 "connection options" 创建数据源,但它们不支持 VPC 设置。
唯一支持 VPC 设置的是 AWS Glue Connection,但我找不到如何使用 AWS Glue Connection 创建 Spark 数据源的方法。
或者也许有一些解决方法?
请参阅此 guide 中的步骤 8,在添加 Glue jdbc 连接后,创建一个爬网程序以将 table 元数据从源数据库导入 AWS Glue 数据目录。
然后您可以像这样在 Glue 作业中访问 table:
df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")
或使用 Spark:
df = spark.sql("SELECT * FROM db1.table1")