在 Spark python 中从 S3 中提取带有星号 (*) 的文件路径

Extracting from S3 a file path with star (*) sign in Spark python

我的一个文件具有以下路径:

s3://bucket/folder/file[1]*[2]

现在,当我尝试使用 sc.textFile 命令读取它时,由于星号 (*) 而无法读取它。

有没有正确阅读的方法?

(我试过 * ,但没用)

如有任何帮助,我们将不胜感激。

Spark 使用 Hadoop 的 glob,即

http://hadoop.apache.org/docs/r2.7.2/api/org/apache/hadoop/fs/FileSystem.html#globStatus(org.apache.hadoop.fs.Path)

如您所见,[] 也是特殊字符。也尝试转义括号。

我不知道你用的是什么包,但我用的是 boto3 urlparse.quote_plus。

https://docs.python.org/2/library/urllib.html#urllib.quote_plus