在云 ml 中加载图像

Question

这是在 CPU 机器上运行的主要代码。它从文件夹加载所有图像和蒙版，调整它们的大小，并保存为 2 个 numpy 数组。

from skimage.transform import resize as imresize
from skimage.io import imread


def create_data(dir_input, img_size):

    img_files = sorted(glob(dir_input + '/images/*.jpg'))
    mask_files = sorted(glob(dir_input + '/masks/*.png'))

    X = []
    Y = []

    for img_path, mask_path in zip(img_files, mask_files):

        img = imread(img_path)
        img = imresize(img, (img_size, img_size), mode='reflect', anti_aliasing=True)

        mask = imread(mask_path)
        mask = imresize(mask, (img_size, img_size), mode='reflect', anti_aliasing=True)

        X.append(img)
        Y.append(mask)



    path_x = dir_input + '/images-{}.npy'.format(img_size)
    path_y = dir_input + '/masks-{}.npy'.format(img_size)

    np.save(path_x, np.array(X))
    np.save(path_y, np.array(Y))

这是 gcloud 存储层次结构

gs://my_bucket
|
|----inputs    
|      |----images/
|      |-----masks/
|   
|----outputs
|
|----trainer

dir_input 应该是 gs://my_bucket/inputs

这行不通。从云上的该路径加载图像并将 numpy 数组保存在输入文件夹中的正确方法是什么？

首选 skimage，它在 setup.py

中加载

Answer 1

大多数 Python 库（例如 numpy）本身不支持读取和写入对象存储（例如 GCS 或 S3）。有几个选项：

先将数据复制到本地磁盘（参见）。
尝试使用 GCS python SDK (docs)
使用另一个库，例如 TensorFlow 的 FileIO 抽象。类似于您要执行的操作（read/write numpy 数组）。

后者在您使用 TensorFlow 时特别有用，但即使您使用其他框架也仍然可以使用。

在云 ml 中加载图像

Loading images in cloud ml

google-cloud-platform

google-cloud-ml