在可能的 google 数据流中读取文件时跳过前导行

Question

我想在使用 google 数据流读取文件时跳过前导行。该功能在最新版本中可用吗？这些文件保存在 google 存储中。我会将这些文件写入大查询。

bq 加载命令有选项 --skip_leading_rows。从文件中读取时，此选项会跳过前导行。

我想要 google 数据流中的类似功能。我的输入格式如下。

我希望 google 数据流忽略第一行，只将其余行写入大查询

Answer 1

Dataflow/ParDo 不直接支持此功能。

您需要使用 Filter.byPredicate() 来实现。

例如

PCollection<X> rows = ...;
PCollection<X> nonHeaders =
   rows.apply(Filter.by(new MatchIfNonHeader()));

Is skipping leading rows when reading files in google dataflow possible