apache beam python SDK fileio.ReadMatches 是否支持压缩文件?
Does apache beam python SDK fileio.ReadMatches support compressed files?
我可以在 Java SDK 文档中看到我们可以在 FileIO.ReadableFile 实用程序中指定压缩 class - https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--
但是,我使用 Python 作为参数 (apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)
),但浏览源代码我认为它没有任何作用 - https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches
有人可以确认我是否可以用这个 class 打开 bz2 文件吗?
我特别需要它,所以我可以使用元数据(metadata.path 作为文件名)所以如果有人对我如何将文件名添加到我的每一行作为辅助输入有一些创意,请也分享这些。
还不可能(如@Pablo 的回答)但是,如果您想现在开始,可以从 decompressorBulkTemplate of Dataflow 开始。行数很多,但代码不难理解。
不要写出来,解压后处理你的文件。这是今天开始的一个很好的起点。
在当前的 Beam 版本 (2.31) 中 ReadMatches handles compression 和
bzip2 is a supported compression type.
我可以在 Java SDK 文档中看到我们可以在 FileIO.ReadableFile 实用程序中指定压缩 class - https://beam.apache.org/releases/javadoc/2.2.0/org/apache/beam/sdk/io/FileIO.ReadableFile.html#open--
但是,我使用 Python 作为参数 (apache_beam.io.fileio.ReadMatches(compression=None, skip_directories=True)
),但浏览源代码我认为它没有任何作用 - https://beam.apache.org/releases/pydoc/2.16.0/apache_beam.io.fileio.html#apache_beam.io.fileio.ReadMatches
有人可以确认我是否可以用这个 class 打开 bz2 文件吗?
我特别需要它,所以我可以使用元数据(metadata.path 作为文件名)所以如果有人对我如何将文件名添加到我的每一行作为辅助输入有一些创意,请也分享这些。
还不可能(如@Pablo 的回答)但是,如果您想现在开始,可以从 decompressorBulkTemplate of Dataflow 开始。行数很多,但代码不难理解。
不要写出来,解压后处理你的文件。这是今天开始的一个很好的起点。
在当前的 Beam 版本 (2.31) 中 ReadMatches handles compression 和 bzip2 is a supported compression type.