通过 R 访问 Azure Blob 存储

Access Azure Blob Storage through R

我正在尝试使用 R 从存储了一些 CSV 文件的位置连接到 Azure Blob。在将它们写回另一个 Blob 容器之前,我需要将它们加载到数据框中并对其进行一些转换。我正在尝试通过 Databricks 执行此操作,因此我最终可以从数据工厂调用此笔记本并将其包含在管道中。

Databricks 在 Python 中为我提供了一个示例笔记本,其中可以使用以下代码建立连接:

storage_account_name = "testname"
storage_account_access_key = "..."
file_location = "wasb://example@testname.blob.core.windows.net/testfile.csv"

spark.conf.set(
  "fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
  storage_account_access_key)

df = spark.read.format('csv').load(file_location, header = True, inferSchema = True)

R 中有类似的东西吗?我可以在 R 中使用 SparkR 或 Sparklyr 包,如果它可以帮助我加载文件并将其也放入 Spark 数据帧中。

供参考,我获悉 R 无法进行实际安装。解决方法是使用 Python 等另一种语言进行挂载,并使用库 "SparkR" 读取文件,如下所示。

为 Spark 提供 R 接口的两个最常用的库是 SparkR 和 sparklyr。 Databricks notebooks 和 jobs 都支持这两个包,尽管您不能对同一对象同时使用 SparkR 和 sparklyr 中的函数。

使用Python挂载:

运行 使用库“SparkR”的 R 笔记本: