无法从 data proc 集群上的 jupyter notebook 运行的 google 云存储桶中读取文件

Question

我正在使用 Data Proc Spark 集群进行初始化操作以安装 Jupyter notebook。我无法读取存储在 google 云存储桶中的 csv 文件，但是当我在 Spark Shell

上工作时，我能够读取相同的文件

下面是我得到的错误代码

import pandas as pd
import numpy as np
data = pd.read_csv("gs://dataproc-78r5fe64b-a56d-4f5f4-bcf9-e1b7t6fb9d8f-au-southeast1/notebooks/datafile.csv")

    FileNotFoundError                         Traceback (most recent call last)
<ipython-input-20-2457012764fa> in <module>
----> 1 data = pd.read_csv("gs://dataproc-78r5fe64b-a56d-4f5f4-bcf9-e1b7t6fb9d8f-au-southeast1/notebooks/datafile.csv")

/opt/conda/lib/python3.6/site-packages/pandas/io/parsers.py in parser_f(filepath_or_buffer, sep, delimiter, header, names, index_col, usecols, squeeze, prefix, mangle_dupe_cols, dtype, engine, converters, true_values, false_values, skipinitialspace, skiprows, nrows, na_values, keep_default_na, na_filter, verbose, skip_blank_lines, parse_dates, infer_datetime_format, keep_date_col, date_parser, dayfirst, iterator, chunksize, compression, thousands, decimal, lineterminator, quotechar, quoting, escapechar, comment, encoding, dialect, tupleize_cols, error_bad_lines, warn_bad_lines, skipfooter, doublequote, delim_whitespace, low_memory, memory_map, float_precision)
    676                     skip_blank_lines=skip_blank_lines)
    677 
--> 678         return _read(filepath_or_buffer, kwds)
    679 
    680     parser_f.__name__ = name

/opt/conda/lib/python3.6/site-packages/pandas/io/parsers.py in _read(filepath_or_buffer, kwds)
    438 
    439     # Create the parser.
--> 440     parser = TextFileReader(filepath_or_buffer, **kwds)
    441 
    442     if chunksize or iterator:

/opt/conda/lib/python3.6/site-packages/pandas/io/parsers.py in __init__(self, f, engine, **kwds)
    785             self.options['has_index_names'] = kwds['has_index_names']
    786 
--> 787         self._make_engine(self.engine)
    788 
    789     def close(self):

/opt/conda/lib/python3.6/site-packages/pandas/io/parsers.py in _make_engine(self, engine)
   1012     def _make_engine(self, engine='c'):
   1013         if engine == 'c':
-> 1014             self._engine = CParserWrapper(self.f, **self.options)
   1015         else:
   1016             if engine == 'python':

/opt/conda/lib/python3.6/site-packages/pandas/io/parsers.py in __init__(self, src, **kwds)
   1706         kwds['usecols'] = self.usecols
   1707 
-> 1708         self._reader = parsers.TextReader(src, **kwds)
   1709 
   1710         passed_names = self.names is None

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader.__cinit__()

pandas/_libs/parsers.pyx in pandas._libs.parsers.TextReader._setup_parser_source()

FileNotFoundError: File b'gs://dataproc-78r5fe64b-a56d-4f5f4-bcf9-e1b7t6fb9d8f-au-southeast1/notebooks/datafile.csv' does not exist

CSV 文件的位置路径

gs://dataproc-78r5fe64b-a56d-4f5f4-bcf9-e1b7t6fb9d8f-au-southeast1/notebooks/datafile.csv

我还确保 csv 文件存储在与附加到数据过程相同的存储桶中，并确保文件采用 UTF-8 编码的 csv 格式

任何人都可以帮助我如何从 google 云中的数据处理集群上的 jupyter 笔记本运行读取存储在 google 存储桶中的文件。

如果需要更多信息，请告诉我

提前致谢！！

Answer 1

Spark 可以从 GCS 读取的原因是我们将其配置为对以 gs:// 开头的路径使用 GCS connector。您可能想使用 spark.read.csv(gs://path/to/files/) 将 CSV 文件读入 Spark 数据帧。

您可以使用 pandas 对 GCS 进行读写操作，但会稍微复杂一些。 This Whosebug post 列出了一些选项。

旁注：如果您使用 Pandas，您应该使用 single node 集群，因为 pandas 代码不会分布在集群中。

无法从 data proc 集群上的 jupyter notebook 运行的 google 云存储桶中读取文件

Unable to read files from google cloud storage bucket from jupyter notebook running on data proc cluster

python

google-cloud-storage

google-cloud-dataproc

jupyter-notebook

无法从 data proc 集群上的 jupyter notebook 运行 的 google 云存储桶中读取文件

Unable to read files from google cloud storage bucket from jupyter notebook running on data proc cluster

python

google-cloud-storage

google-cloud-dataproc

jupyter-notebook

无法从 data proc 集群上的 jupyter notebook 运行的 google 云存储桶中读取文件