如何使用pyspark使用的通配符读取hdfs文件

Question

有一些 parquet 文件路径是：

/a/b/c='str1'/d='str'

/a/b/c='str2'/d='str'

/a/b/c='str3'/d='str'

我想像这样阅读 parquet 文件：

df = spark.read.parquet('/a/b/c='*'/d='str')

但是使用 "*" 通配符 character.How 不起作用，我可以这样做吗？谢谢你的帮助

Answer 1

您需要转义单引号：

df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')

... 或者只使用双引号：

df = spark.read.parquet("/a/b/c='*'/d='str'")

how to read hdfs file with wildcard character used by pyspark