如何使用pyspark使用的通配符读取hdfs文件
how to read hdfs file with wildcard character used by pyspark
有一些 parquet 文件路径是:
/a/b/c='str1'/d='str'
/a/b/c='str2'/d='str'
/a/b/c='str3'/d='str'
我想像这样阅读 parquet 文件:
df = spark.read.parquet('/a/b/c='*'/d='str')
但是使用 "*"
通配符 character.How 不起作用,我可以这样做吗?谢谢你的帮助
您需要转义单引号:
df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')
... 或者只使用双引号:
df = spark.read.parquet("/a/b/c='*'/d='str'")
有一些 parquet 文件路径是:
/a/b/c='str1'/d='str'
/a/b/c='str2'/d='str'
/a/b/c='str3'/d='str'
我想像这样阅读 parquet 文件:
df = spark.read.parquet('/a/b/c='*'/d='str')
但是使用 "*"
通配符 character.How 不起作用,我可以这样做吗?谢谢你的帮助
您需要转义单引号:
df = spark.read.parquet('/a/b/c=\'*\'/d=\'str\'')
... 或者只使用双引号:
df = spark.read.parquet("/a/b/c='*'/d='str'")