如何将数据集放在 gcloud kubernetes 集群上？

Question

我初始化了一个 gcloud Kubernetes 集群，我在本地机器上使用 Dask Client 连接到集群，但我似乎找不到任何关于如何将我的数据集上传到集群的文档.

我最初尝试只运行本地 Dask 将我的数据集加载到我的本地 RAM 中，但显然这是通过网络发送它并且集群仅运行以 2% 的利用率使用时执行任务。

有没有办法将数据集放到 Kubernetes 集群上，这样我可以获得 100% CPU 利用率？

Answer 1

许多人将数据存储在云对象存储上，例如亚马逊的 S3、Google 云存储。

如果您对 Dask 特别感兴趣，大多数数据摄取功能都支持这些数据存储，方法是使用如下协议：

import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')

您还需要安装相关的 Python 库才能访问此云存储（在本例中为 gcsfs）。有关详细信息，请参阅 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations。

How to put a dataset on a gcloud kubernetes cluster?