Azure Databricks Python 多处理 API 调用请求库?
Azure Databricks Python multiprocessing API calls with the requests library?
我们目前正在尝试找出一种通过 Azure Databricks 从 API 端点提取大量数据的方法。我们希望多处理适用于我们已经在 Databricks 平台上通过一些重构编写的 Python,但它似乎并不真正支持 Python 3 多处理库,因此没有大有收获 运行 我们在这个平台上的代码。我们是否正确地假设我们需要转向 Pyspark 或只是 scala 来完成这项任务,或者我们应该寻找更好的替代方案?
据我所知,Azure 上有一个名为 Azure Batch
的服务,它非常适合您当前的场景,可以从 API 端点并行提取大量数据,并且可以扩展向上。
可以参考官方教程Quickstart: Run your first Batch job with the Python API
and Quickstart: Upload, download, and list blobs with Python
to know how to use it in Python and integrate with Azure Storage SDK for Python to download the data to Blob Storage. Then you can connect to Blob Storage as data source in Azure Databricks for doing the follow-up data processing, please refer to the offical document Connect to data sources from Azure Databricks
and the Azure databricks topic Azure Blob Storage
了解一下
如果您有任何疑虑,请随时告诉我。
我们目前正在尝试找出一种通过 Azure Databricks 从 API 端点提取大量数据的方法。我们希望多处理适用于我们已经在 Databricks 平台上通过一些重构编写的 Python,但它似乎并不真正支持 Python 3 多处理库,因此没有大有收获 运行 我们在这个平台上的代码。我们是否正确地假设我们需要转向 Pyspark 或只是 scala 来完成这项任务,或者我们应该寻找更好的替代方案?
据我所知,Azure 上有一个名为 Azure Batch
的服务,它非常适合您当前的场景,可以从 API 端点并行提取大量数据,并且可以扩展向上。
可以参考官方教程Quickstart: Run your first Batch job with the Python API
and Quickstart: Upload, download, and list blobs with Python
to know how to use it in Python and integrate with Azure Storage SDK for Python to download the data to Blob Storage. Then you can connect to Blob Storage as data source in Azure Databricks for doing the follow-up data processing, please refer to the offical document Connect to data sources from Azure Databricks
and the Azure databricks topic Azure Blob Storage
了解一下
如果您有任何疑虑,请随时告诉我。