Azure Databricks 中 DBFS 的数据大小限制是多少

What is the Data size limit of DBFS in Azure Databricks

我读到 here AWS Databricks 上的单个文件的存储限制为 5TB,我们可以存储任意数量的文件 那么同样的限制是否适用于 Azure Databricks?或者,Azure Databricks 是否有其他限制?

更新:

@CHEEKATLAPRADEEP 感谢您的解释,但是,有人可以分享背后的原因吗:"we recommend that you store data in mounted object storage rather than in the DBFS root"

我需要在 Power BI 中使用 DirectQuery(因为数据量很大),ADLS 目前不支持。

Databricks 文档指出:

Support only files less than 2GB in size. If you use local file I/O APIs to read or write files larger than 2GB you might see corrupted files. Instead, access files larger than 2GB using the DBFS CLI, dbutils

您可以在这里阅读更多内容:https://docs.microsoft.com/en-us/azure/databricks/data/databricks-file-system

来自 Azure Databricks 最佳实践:Do not Store any Production Data in Default DBFS Folders

重要说明:即使 DBFS 根是可写的,我们建议您将数据存储在挂载的对象存储中而不是 DBFS 根.

建议将数据存储在装载的存储帐户中而不是存储在存储帐户中的原因位于 ADB 工作空间中。

原因 1:当您通过存储资源管理器从外部使用相同的存储帐户时,您没有写入权限。

原因 2:不能对另一个 ADB 工作区使用相同的存储帐户,也不能对 Azure 数据工厂或 Azure 突触工作区使用相同的存储帐户链接服务。

原因 3:将来,您决定使用 Azure Synapse 工作区而不是 ADB。

原因四:如果要删除已有的工作空间怎么办

Databricks 文件系统 (DBFS) 是一种分布式文件系统,安装在 Azure Databricks 工作区中,可在 Azure Databricks 群集上使用。 DBFS 是可扩展对象存储之上的抽象,即 ADLS gen2。

您可以在 Azure Data Lake Storage Gen2 中存储的数据量没有限制。

注意: Azure Data Lake Storage Gen2 能够存储和提供许多艾字节的数据。

For Azure Databricks Filesystem (DBFS) - Support only files less than 2GB in size.

注意: 如果您使用本地文件 I/O API 读取或写入大于 2GB 的文件,您可能会看到损坏的文件。相反,使用 DBFS CLI、dbutils.fs 或 Spark API 或使用 /dbfs/ml 文件夹访问大于 2GB 的文件。

For Azure Storage – Maximum storage account capacity is 5 PiB Petabytes.

以下 table 描述了 Azure 通用 v1、v2、Blob 存储和块 blob 存储帐户的默认限制。入口限制是指发送到存储帐户的所有数据。出口限制是指从存储帐户接收的所有数据。

注意: 单块 blob 的限制为 4.75 TB.