使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖

Access datalake from Azure datafactory V2 using on demand HD Insight cluster

我正在尝试使用 Azure 数据工厂从按需 HD Insight 集群执行 spark 作业。

文档清楚地表明 ADF(v2) 不支持按需高清洞察集群的数据湖链接服务，必须将数据从副本 activity 复制到 blob，然后执行作业。但是，如果数据湖上有 10 亿个文件，这种解决方法似乎是一种非常昂贵的资源。是否有任何有效的方法可以从执行 spark 作业的 python 脚本或任何其他直接访问文件的方式访问数据湖文件。

P.S 是否有可能从 v1 开始做类似的事情，如果是那么怎么做？ "Create on-demand Hadoop clusters in HDInsight using Azure Data Factory" 描述访问 blob 存储的按需 hadoop 集群，但我想要访问数据湖的按需 spark 集群。

P.P.s 在此先感谢

目前，我们不支持在 ADF v2 中使用 HDI Spark 集群进行 ADLS 数据存储。我们计划在未来几个月内添加。到那时，您将不得不继续使用上面 post 中提到的解决方法。抱歉给您带来不便。

Blob 存储用于按需集群将使用的脚本和配置文件。例如，在您编写并存储在附加的 Blob 存储中的脚本中，他们可以从 ADLS 写入 SQLDB。

使用按需 HOT Insight 集群从 Azure 数据工厂 V2 访问数据湖

Access datalake from Azure datafactory V2 using on demand HD Insight cluster

python

pyspark

azure-data-factory

azure-data-lake

azure-hdinsight