您是否必须使用 Azure 数据工厂,或者您是否可以将 Databricks 作为来自多个来源的 ETL 工具?
Do you have to use Azure Data Factory or can you just Databricks as your ETL tool from your multiple sources?
...或者我是否需要先使用数据工厂将数据添加到数据湖中,然后将数据块用作 ELT?
视情况而定。
与数据块相比,Databricks 可以连接到 datasources and ingest data. However Azure Data Factory(ADF) have more connectors。所以这取决于你需要什么。如果使用 ADF,您需要将数据放在某个地方(即 Azure 存储),以便数据块可以获取它。
此外,ADF 的另一个主要功能是编排数据移动或 activity。 Databricks 确实有作业功能来安排笔记本或 JAR,但它仅限于数据块。如果您想安排 databricks 之外的任何事情(例如,将文件拖放到 SFTP 或在完成时通过电子邮件发送或终止 databricks 集群等),那么 ADF 是最佳选择。
确实要看我想的场景。如果您有各种各样的数据源需要连接,那么 adf 可能是更好的选择。
如果您的源是数据文件(任何格式),您可以考虑使用 databricks for etl。
我通过将笔记本安装到 blobstorage 中的存储容器,将数据块用作纯 etl 工具(没有 adf),从那里获取大量 xml 数据并将数据写入数据块中的数据帧。然后我解析数据框的形状,然后将数据写入 azure sql 数据库。公平地说,我并没有真正将它用于 etl 中的“e”,因为数据已经从真实的源系统中提取出来了。
最大的优势是您可以随意分析文件。
此致。
...或者我是否需要先使用数据工厂将数据添加到数据湖中,然后将数据块用作 ELT?
视情况而定。
与数据块相比,Databricks 可以连接到 datasources and ingest data. However Azure Data Factory(ADF) have more connectors。所以这取决于你需要什么。如果使用 ADF,您需要将数据放在某个地方(即 Azure 存储),以便数据块可以获取它。
此外,ADF 的另一个主要功能是编排数据移动或 activity。 Databricks 确实有作业功能来安排笔记本或 JAR,但它仅限于数据块。如果您想安排 databricks 之外的任何事情(例如,将文件拖放到 SFTP 或在完成时通过电子邮件发送或终止 databricks 集群等),那么 ADF 是最佳选择。
确实要看我想的场景。如果您有各种各样的数据源需要连接,那么 adf 可能是更好的选择。
如果您的源是数据文件(任何格式),您可以考虑使用 databricks for etl。
我通过将笔记本安装到 blobstorage 中的存储容器,将数据块用作纯 etl 工具(没有 adf),从那里获取大量 xml 数据并将数据写入数据块中的数据帧。然后我解析数据框的形状,然后将数据写入 azure sql 数据库。公平地说,我并没有真正将它用于 etl 中的“e”,因为数据已经从真实的源系统中提取出来了。
最大的优势是您可以随意分析文件。
此致。