读取 bash 中的多个文件

read multiple files in bash

我有两个 .txt 文件,我想在 .sh 脚本中每行同时读取它们。两个 .txt 文件的行数相同。在循环内,我想使用 sed 命令更改另一个文件中的 full_sample_name 和 sample_name。 如果您只读取一个文件,我知道这是如何工作的,但我无法让它对两个文件起作用。

#! /bin/bash

FULL_SAMPLE="file1.txt"
SAMPLE="file2.txt"

while read ... && ...
do
    sed -e "s/\<full_sample_name\>/$FULL_SAMPLE/g" -e "s/\<sample_name\>/$SAMPLE/g" pipeline.sh > $SAMPLE.sh

done < ...?
#!/bin/bash

full_sample_file="file1.txt"
sample_file="file2.txt"

while read -r -u 3 full_sample_name && read -r -u 4 sample_name; do
    sed -e "s/\<full_sample_name\>/$full_sample_name/g" \
        -e "s/\<sample_name\>/$sample_name/g" \
        pipeline.sh >"$sample_name.sh"
done 3<"$full_sample_file" 4<"$sample_file" # automatically closed on loop exit

在这种情况下,我将文件描述符 3 分配给 file1.txt,将文件描述符 4 分配给 file2.txt。


顺便说一下,使用 bash 4.1 或更新版本,您不再需要手动处理文件描述符:

# opening explicitly, since even if opened on the loop, these need
# to be explicitly closed.
exec {full_sample_fd}<file1.txt
exec {sample_fd}<file2.txt

while read -r -u "$full_sample_fd" full_sample_name \
   && read -r -u "$sample_fd" sample_name; do
  : do stuff here with "$full_sample_name" and "$sample_name"
done

# close the files explicitly
exec {full_sample_fd}>&- {sample_fd}>&-

还有一点要注意:您可以使它更有效(并且更正确,如果您的 sample_namefull_sample_name 值不能保证在解释为正则表达式时对它们自己求值,如果您的输入文件不包含文字 NUL [作为 shell 脚本,它不应该],并且如果箭头括号旨在是文字而不是单词边界正则表达式字符)通过不使用 sed,但只是读取要转换为 shell 变量的输入,然后在那里进行替换!

exec {full_sample_fd}<file1.txt
exec {sample_fd}<file2.txt
IFS= read -r -d '' input_file <pipeline.sh

while read -r -u "$full_sample_fd" full_sample_name \
   && read -r -u "$sample_fd" sample_name; do
  output=${input_file//'<full_sample_name>'/${full_sample_name}}
  output=${output//'<sample_name>'/${sample_name}}
  printf '%s' "$output" >"${sample_name}.sh"
done

# close the files explicitly
exec {full_sample_fd}>&- {sample_fd}>&-

查尔斯提供了一个很好的答案。

您可以使用 paste 用一些定界符(不应出现在文件中)连接文件行:

paste -d ":" file1.txt file2.txt | while IFS=":" read -r full samp; do
    do_stuff_with "$full" and "$samp"
done

使用 GNU Parallel 时,它看起来像这样:

#! /bin/bash

do_sed() {
    sed -e "s/\<full_sample_name\>//g" -e "s/\<sample_name\>//g" pipeline.sh > "".sh
}
export -f do_sed   

parallel --xapply do_sed {1} {2} :::: file1.txt file2.txt

额外的好处是您可以并行获得它 运行。根据您的存储系统,这可能会加快处理速度:在 raid6 上,我看到并行 运行ning 10 个作业的速度提高了 6 倍。 YMMV,所以唯一可以确定的方法就是测试和测量。

GNU Parallel 是一个通用的并行器,可以很容易地在同一台机器或您可以通过 ssh 访问的多台机器上并行 运行 作业。

如果您有 32 个不同的作业要 运行 在 4 CPU 秒内执行,一个直接的并行化方法是 运行 每个 CPU 8 个作业:

GNU Parallel 在一个进程完成时生成一个新进程 - 保持 CPU 处于活动状态,从而节省时间:

安装

如果 GNU Parallel 未打包用于您的发行版,您可以进行个人安装,这不需要 root 访问权限。这样做可以在 10 秒内完成:

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项,请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例:http://www.gnu.org/software/parallel/man.html

观看介绍视频:https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程:http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持:https://lists.gnu.org/mailman/listinfo/parallel