在 Glue Dev Endpoint 上为 Sagemaker 设置 Spark 版本

Set Spark version for Sagemaker on Glue Dev Endpoint

为了创建我的 Glue 脚本,我将开发端点与 运行 Pyspark (Sparkmagic) 内核的 Sagemaker 笔记本一起使用。 最新版本的 Glue(1.0 版)支持 Spark 2.4。但是,我的 Sagemaker 笔记本使用 Spark 2.2.1 版。 我要测试的功能仅存在于 Spark 2.3。 有没有办法解决开发端点和 Glue 作业之间的这种不匹配?我可以设置 notebook 的 Spark 版本吗?
我在文档中找不到任何内容。

当您为 Glue 开发端点创建 SageMaker 笔记本时,它会启动一个具有特定生命周期配置的 SageMaker 笔记本实例。此 LC 提供用于在 SageMaker 笔记本和开发终端节点之间创建连接的配置。在来自 PySpark 内核的 运行 个单元格上,代码通过 REST API 发送到开发端点中的 Livy 服务器 运行。

因此,您看到的以及运行 SageMaker 笔记本的 PySpark 版本取决于开发端点,并且从 SageMaker 的角度来看是不可配置的。

由于 Glue 是一项托管服务,因此开发端点的根访问权限受到限制。因此,您无法将 spark 版本更新到更高版本。 Glue新引入了使用Spark 2.4版本的功能,开发端好像还没有发布。