如何删除与多个正则表达式模式之一匹配的行？

Question

我有一个制表符分隔的文本文件，希望有效地删除满足以下任一条件的整行：

ALT 列中的值等于 .
NA00001 列和后续列中两个定界符 | 或 / 前后具有相同数字的值，例如0|0、1|1、2/2 等

示例输入文件如下：

CHROM POS     ID        REF ALT    QUAL FILTER INFO                              FORMAT      NA00001        NA00002        NA00003
20     14370   rs6054257 G      A       29   PASS   NS=3;DP=14;AF=0.5;DB;H2           GT:GQ:DP:HQ 0|0:48:1:51,51 0|0:48:8:51,51 1/1:43:5:.,.
20     17330   .         T      A       3    q10    NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3   0/0:41:3
20     1110696 rs6040355 A      G,T     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4
20     1110696 rs6040360 A      .     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4

示例输出文件为：

CHROM POS     ID        REF ALT    QUAL FILTER INFO                              FORMAT      NA00001        NA00002        NA00003
20     17330   .         T      A       3    q10    NS=3;DP=11;AF=0.017               GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3   0/0:41:3
20     1110696 rs6040355 A      G,T     67   PASS   NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2   2/2:35:4

Answer 1

您的示例似乎不包含任何符合 "values in the ALT column that are equal to ." 标准的行，或不符合第二个标准的行（header 行）。所以我在你的例子中添加了一些我自己的行来进行测试；我希望我已经理解你的标准。

第一个条件很容易通过测试特定字段来匹配，如果我们使用类似 awk 的东西： == "." {next} 在 awk 脚本中将跳过该行。仅使用正则表达式也非常简单：^[^^I]*^I[^^I]*^I[^^I]*^I[^^I]*^I\.^I，其中 ^I 是制表符，匹配仅包含“.”的行。在第五个 (ALT) 字段中。

使用严格的正则表达式不能直接表达 "the same digit before and after [a delimiter]"。您必须通过 sub-expressions 与特定值的交替来完成此操作：0[|/]0|1[|/]1|2[|/]2... 但是只有 10 位数字，因此这并不是特别麻烦。因此，例如，您可以使用一个长的 egrep 命令行执行此过滤：

egrep -v '^[^^I]*^I[^^I]*^I[^^I]*^I[^^I]*^I\.^I|0[|/]0|1[|/]1|2[|/]2|3[|/]3|4[|/]4|5[|/]5|6[|/]6|7[|/]7|8[|/]8|9[|/]9' input-file

显然，这不是您希望定期手动输入的内容，也不适合维护。一点 awk 脚本更好：

#! /usr/bin/awk -f
# Skip lines with "." in the fifth (ALT) field
 == "." {next}
# Skip lines with the same digit before and after the delimiter in any field
/0[|/]0/ {next}
/1[|/]1/ {next}
/2[|/]2/ {next}
/3[|/]3/ {next}
/4[|/]4/ {next}
/5[|/]5/ {next}
/6[|/]6/ {next}
/7[|/]7/ {next}
/8[|/]8/ {next}
/9[|/]9/ {next}

# Copy all other lines to the output
{print}

为了便于阅读，我已将各个数字检查作为单独的 awk 语句。

使用扩展正则表达式 (ERE)，您可以直接使用 back-reference 表达 "same character before and after the delimiter"。应谨慎使用反向引用，因为它们会产生病态的性能特征；当然，您必须使用支持它们的语言，例如 perl。 POSIX awk 和 Gnu gawk 没有。这是处理第二个标准的 Perl one-liner：

LINE: while (<STDIN>) { next LINE if /(\d)[|\/]\g1/; print }

这可能不是很好的 Perl - 我几乎从不使用这种语言 - 但它在我的测试中有效。 (\d)匹配并记住分隔符前的数字，\g1匹配分隔符后记住的数字。

Answer 2

perl -alnE '$F[4]  eq "."           and
            $F[9] =~ m!(\d)[|/]!  and
            $F[10] =~ m!(\d)[|/]! and
            say'

更新：抱歉，OP 要求相反...

perl -alnE 'say unless (
               $f[4] eq "."            or 
               ( $F[9]  =~ m!(\d)[|/]! and
                 $F[10] =~ m!(\d)[|/]! and
                 $F[11] =~ m!(\d)[|/]!
               )
            )'

或同等学历

perl -ane 'next if ( $f[4] eq ".");
           next if ( $F[9]  =~ m!(\d)[|/]! and
                     $F[10] =~ m!(\d)[|/]! and
                     $F[11] =~ m!(\d)[|/]! );
           print '

如何删除与多个正则表达式模式之一匹配的行？

How to remove rows that match one of several regex patterns?

regex

unix

awk

sed

pattern-matching