您如何从文件中的列中 grep/awk？

Question

我有一个名为 IDs_list.txt 的 ID 文件，我想使用它从第二个文件中提取信息，该文件有数百个 ID，其中许多不在我的特定 IDS_list.txt 中.

我尝试了 if 和 grep 的组合，但我的结果总是空的。

这是我正在尝试做的事情以及我已经完成的事情的示例。

cat IDS_list.txt | head -n 4
24
43
56
69

cat sample1.txt | head -n 4
NODE_1_length_148512_cov_24.5066,gi|573017271|gb|CP006568.1|,148512,4513140,8,7289,86.545,0.0,13461,24,madeup species 1
NODE_2_length_122550_cov_25.719,gi|84778498|dbj|AP008232.1|,122550,4171146,13,12690,93.693,0.0,23435,244,madeup species 2
NODE_3_length_103385_cov_25.9802,gi|84778498|dbj|AP008232.1|,103385,4171146,6,4243,88.782,0.0,7836,43,madeup species 3
NODE_4_length_101672_cov_25.6536,gi|84778498|dbj|AP008232.1|,101672,4171146,7,4139,86.799,0.0,7644,955,long name here

ID 在第 10 列。

我需要提取 ID 在 IDS_list.txt 中的所有行。

所以我的输出应该是：

NODE_1_length_148512_cov_24.5066,gi|573017271|gb|CP006568.1|,148512,4513140,8,7289,86.545,0.0,13461,24,madeup species 1
NODE_3_length_103385_cov_25.9802,gi|84778498|dbj|AP008232.1|,103385,4171146,6,4243,88.782,0.0,7836,43,madeup species 3

我试过：

for file in sample?.txt; do awk 'FNR==NR{arr[[=13=]];next} ( in arr)' IDs_list.txt $file; done

什么都没有出来。这个例子是我从另一个堆栈溢出问题中得到的。

for i in $(cat IDs_list.txt); do awk -F"," ' == $i' sample1.txt; done

但这会多次打印单个输出，因为我逐行迭代 IDs_list.txt，所以这不是我想要的。我可能会得到第一行输出数百次，因为我的 IDs_list.txt 有数百个 ID。

然后我用 awk 尝试了 grep，但也没有用。我的语法不对。

for file in sample?.txt; do for i in $(cat IDs_list.txt); do grep -w '$i' $file; done; done

这里没有任何输出。我的逻辑是，对于每个示例文件，我想 grep 包含在 IDs_list.txt 中找到的 ID 的行。但是我不喜欢不调用特定的第 10 列，因为 ID 有时会出现在实际上不是 ID 的其他列中。

有什么 eloquent 在 for 循环中使用 grep 或 awk 或两者以某种方式执行此操作的方法吗？

Answer 1

你可以使用这个awk:

awk -F, 'NR==FNR {ids[]; next}  in ids' IDs_list.txt sample.txt

NODE_1_length_148512_cov_24.5066,gi|573017271|gb|CP006568.1|,148512,4513140,8,7289,86.545,0.0,13461,24,madeup species 1
NODE_3_length_103385_cov_25.9802,gi|84778498|dbj|AP008232.1|,103385,4171146,6,4243,88.782,0.0,7836,43,madeup species 3

您如何从文件中的列中 grep/awk？

How do you grep/awk from a column in a file?

bash

awk

grep