Unix - 将多个文件中的单列编译成一个制表符分隔的文件
Unix - Compile a single column from many files into a single, tab-delimited file
我有大量相同的制表符分隔格式的文件:
Column A Column B
Data_A1 Data_B1
Data_A2 Data_B2
Data_A3 Data_B3
这些文件的行数都相同。
我想将每个文件的 B 列数据编译到一个制表符分隔的文件中。现在,我最好的计划是按照以下几行编写一个 Perl 脚本:
#!/usr/bin/perl
my $file = shift @ARGV;
my $ref = shift @ARGV;
open ( FILE, $file ); # FILE WITH FORMAT DESCRIBED ABOVE
while (<FILE>) {
chomp;
my @a = split("\t", $_);
push(@B, $a[1]);
}
close FILE;
my $counter = 0;
open (REF, $ref); # TAB-DELIMITED COMPILATION OF EVERY FILE'S COLUMN B
while (<REF>) {
chomp;
print "$_\t$B[$counter]\n";
}
close REF;
然后,编写一个 BASH 脚本,循环遍历所有文件,并将 Perl 脚本的输出保存为下一次 shell 循环迭代的输入:
#!/bin/bash
for file in *.txt
do
perl Script.pl $file Infile > Temp
mv Temp Infile
done
但是,对于如此简单的事情,这感觉像是一项巨大的工作量。有没有简单的 Unix 命令可以做同样的事情?
预期输出:
File1_Column_B File2_Column_B File3_Column_B ...
Data_B1 Data_B1 Data_B1 ...
Data_B2 Data_B2 Data_B2 ...
Data_B3 Data_B3 Data_B3 ...
...
您可以使用 awk
到 select 您想要的列,然后 paste
将它们粘贴在一起。
示例:
paste -d '\t' <(awk '{print }' file1.tsv) <(awk '{print }' file2.tsv)
注意: <(command)
允许将命令的输出用作文件。
您可以在 Perl 中完成所有工作:
#!/usr/bin/perl
use warnings;
use strict;
my ($result, @input) = @ARGV; # output input1 input2...
my @table;
for my $i (0 .. $#input) {
my $infile = $input[$i];
open my $IN, '<', $infile or die "$infile: $!";
while (<$IN>) {
$table[ $. - 1 ][$i] = (split)[1];
}
}
open my $OUT, '>', $result or die "$result: $!";
for my $row (@table) {
print {$OUT} join("\t", @$row), "\n";
}
close $OUT;
bash:
paste -d'\t' input*.txt |
awk -F'\t' '{for (i=2; i<=NF; i+=2) printf "%s%s", $i, FS; print ""}'
这会将所有文件和所有列粘贴在一起,然后使用 awk 仅提取偶数列。
我有大量相同的制表符分隔格式的文件:
Column A Column B
Data_A1 Data_B1
Data_A2 Data_B2
Data_A3 Data_B3
这些文件的行数都相同。
我想将每个文件的 B 列数据编译到一个制表符分隔的文件中。现在,我最好的计划是按照以下几行编写一个 Perl 脚本:
#!/usr/bin/perl
my $file = shift @ARGV;
my $ref = shift @ARGV;
open ( FILE, $file ); # FILE WITH FORMAT DESCRIBED ABOVE
while (<FILE>) {
chomp;
my @a = split("\t", $_);
push(@B, $a[1]);
}
close FILE;
my $counter = 0;
open (REF, $ref); # TAB-DELIMITED COMPILATION OF EVERY FILE'S COLUMN B
while (<REF>) {
chomp;
print "$_\t$B[$counter]\n";
}
close REF;
然后,编写一个 BASH 脚本,循环遍历所有文件,并将 Perl 脚本的输出保存为下一次 shell 循环迭代的输入:
#!/bin/bash
for file in *.txt
do
perl Script.pl $file Infile > Temp
mv Temp Infile
done
但是,对于如此简单的事情,这感觉像是一项巨大的工作量。有没有简单的 Unix 命令可以做同样的事情?
预期输出:
File1_Column_B File2_Column_B File3_Column_B ...
Data_B1 Data_B1 Data_B1 ...
Data_B2 Data_B2 Data_B2 ...
Data_B3 Data_B3 Data_B3 ...
...
您可以使用 awk
到 select 您想要的列,然后 paste
将它们粘贴在一起。
示例:
paste -d '\t' <(awk '{print }' file1.tsv) <(awk '{print }' file2.tsv)
注意: <(command)
允许将命令的输出用作文件。
您可以在 Perl 中完成所有工作:
#!/usr/bin/perl
use warnings;
use strict;
my ($result, @input) = @ARGV; # output input1 input2...
my @table;
for my $i (0 .. $#input) {
my $infile = $input[$i];
open my $IN, '<', $infile or die "$infile: $!";
while (<$IN>) {
$table[ $. - 1 ][$i] = (split)[1];
}
}
open my $OUT, '>', $result or die "$result: $!";
for my $row (@table) {
print {$OUT} join("\t", @$row), "\n";
}
close $OUT;
bash:
paste -d'\t' input*.txt |
awk -F'\t' '{for (i=2; i<=NF; i+=2) printf "%s%s", $i, FS; print ""}'
这会将所有文件和所有列粘贴在一起,然后使用 awk 仅提取偶数列。