如何将数据集放在 gcloud kubernetes 集群上?
How to put a dataset on a gcloud kubernetes cluster?
我初始化了一个 gcloud Kubernetes 集群,我在本地机器上使用 Dask Client 连接到集群,但我似乎找不到任何关于如何将我的数据集上传到集群的文档.
我最初尝试只 运行 本地 Dask 将我的数据集加载到我的本地 RAM 中,但显然这是通过网络发送它并且集群仅 运行 以 2% 的利用率使用时执行任务。
有没有办法将数据集放到 Kubernetes 集群上,这样我可以获得 100% CPU 利用率?
许多人将数据存储在云对象存储上,例如亚马逊的 S3、Google 云存储。
如果您对 Dask 特别感兴趣,大多数数据摄取功能都支持这些数据存储,方法是使用如下协议:
import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')
您还需要安装相关的 Python 库才能访问此云存储(在本例中为 gcsfs)。有关详细信息,请参阅 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations。
我初始化了一个 gcloud Kubernetes 集群,我在本地机器上使用 Dask Client 连接到集群,但我似乎找不到任何关于如何将我的数据集上传到集群的文档.
我最初尝试只 运行 本地 Dask 将我的数据集加载到我的本地 RAM 中,但显然这是通过网络发送它并且集群仅 运行 以 2% 的利用率使用时执行任务。
有没有办法将数据集放到 Kubernetes 集群上,这样我可以获得 100% CPU 利用率?
许多人将数据存储在云对象存储上,例如亚马逊的 S3、Google 云存储。
如果您对 Dask 特别感兴趣,大多数数据摄取功能都支持这些数据存储,方法是使用如下协议:
import dask.dataframe as dd
df = dd.read_csv('gcs://bucket/2018-*-*.csv')
您还需要安装相关的 Python 库才能访问此云存储(在本例中为 gcsfs)。有关详细信息,请参阅 http://dask.pydata.org/en/latest/remote-data-services.html#known-storage-implementations。