Databricks DBFS 位于何处?

Where is Databricks DBFS located?

我已经通读了文档,但没有看到太多关于 DBFS 的技术细节。 这是托管服务还是在客户的帐户中?我认为它不是托管的,但我无法在我的 Azure 帐户或我的 aws 帐户中找到它。我对这是如何设置的以及我可以提供给客户的技术细节非常感兴趣。我能找到的最技术细节是有 2 gig 文件限制。

它是托管服务吗? DBFS 作为工作区创建过程的一部分进行配置。

如果您愿意,还可以装载存储帐户。

您可以找到有关 DBFS 的更多详细信息 here

DBFS 是围绕底层云存储实现抽象的名称,可能有不同的类型。通常,当人们提到 DBFS 时,指的是两件事:

  1. DBFS Root - DBFS 的主要入口点(//tmp 等)。在 AWS 上,您需要自己将其配置为 S3 Bucket。在 Azure 上,它是在工作区创建期间创建的,作为单独托管资源组中的专用和隔离存储帐户。您无法在创建该存储帐户后更新其设置,也无法直接访问它。这就是为什么建议不要将关键数据存储在 DBFS 根目录中的原因。

  2. 装载到工作区的其他存储帐户(您也可以使用 S3 或 GCS)。尽管使用挂载存储很方便,但您需要了解这些挂载适用于工作区中的所有人(so-called 直通挂载除外)