如何使用pyspark使用的通配符读取hdfs文件

how to read hdfs file with wildcard character used by pyspark

有一些 parquet 文件路径是:

/a/b/c='str1'/d='str'

/a/b/c='str2'/d='str'

/a/b/c='str3'/d='str'

我想像这样阅读 parquet 文件:

df = spark.read.parquet('/a/b/c='*'/d='str')

但是使用 "*" 通配符 character.How 不起作用,我可以这样做吗?谢谢你的帮助

您需要转义单引号:

df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')

... 或者只使用双引号:

df = spark.read.parquet("/a/b/c='*'/d='str'")