读取 bash 中的多个文件

read multiple files in bash

bash
sed

我有两个 .txt 文件，我想在 .sh 脚本中每行同时读取它们。两个 .txt 文件的行数相同。在循环内，我想使用 sed 命令更改另一个文件中的 full_sample_name 和 sample_name。如果您只读取一个文件，我知道这是如何工作的，但我无法让它对两个文件起作用。

#! /bin/bash

FULL_SAMPLE="file1.txt"
SAMPLE="file2.txt"

while read ... && ...
do
    sed -e "s/\<full_sample_name\>/$FULL_SAMPLE/g" -e "s/\<sample_name\>/$SAMPLE/g" pipeline.sh > $SAMPLE.sh

done < ...?

#!/bin/bash

full_sample_file="file1.txt"
sample_file="file2.txt"

while read -r -u 3 full_sample_name && read -r -u 4 sample_name; do
    sed -e "s/\<full_sample_name\>/$full_sample_name/g" \
        -e "s/\<sample_name\>/$sample_name/g" \
        pipeline.sh >"$sample_name.sh"
done 3<"$full_sample_file" 4<"$sample_file" # automatically closed on loop exit

在这种情况下，我将文件描述符 3 分配给 file1.txt，将文件描述符 4 分配给 file2.txt。

顺便说一下，使用 bash 4.1 或更新版本，您不再需要手动处理文件描述符：

# opening explicitly, since even if opened on the loop, these need
# to be explicitly closed.
exec {full_sample_fd}<file1.txt
exec {sample_fd}<file2.txt

while read -r -u "$full_sample_fd" full_sample_name \
   && read -r -u "$sample_fd" sample_name; do
  : do stuff here with "$full_sample_name" and "$sample_name"
done

# close the files explicitly
exec {full_sample_fd}>&- {sample_fd}>&-

还有一点要注意：您可以使它更有效（并且更正确，如果您的 sample_name 和 full_sample_name 值不能保证在解释为正则表达式时对它们自己求值，如果您的输入文件不包含文字 NUL [作为 shell 脚本，它不应该]，并且如果箭头括号旨在是文字而不是单词边界正则表达式字符）通过不使用 sed，但只是读取要转换为 shell 变量的输入，然后在那里进行替换！

exec {full_sample_fd}<file1.txt
exec {sample_fd}<file2.txt
IFS= read -r -d '' input_file <pipeline.sh

while read -r -u "$full_sample_fd" full_sample_name \
   && read -r -u "$sample_fd" sample_name; do
  output=${input_file//'<full_sample_name>'/${full_sample_name}}
  output=${output//'<sample_name>'/${sample_name}}
  printf '%s' "$output" >"${sample_name}.sh"
done

# close the files explicitly
exec {full_sample_fd}>&- {sample_fd}>&-

查尔斯提供了一个很好的答案。

您可以使用 paste 用一些定界符（不应出现在文件中）连接文件行：

paste -d ":" file1.txt file2.txt | while IFS=":" read -r full samp; do
    do_stuff_with "$full" and "$samp"
done

使用 GNU Parallel 时，它看起来像这样：

#! /bin/bash

do_sed() {
    sed -e "s/\<full_sample_name\>//g" -e "s/\<sample_name\>//g" pipeline.sh > "".sh
}
export -f do_sed   

parallel --xapply do_sed {1} {2} :::: file1.txt file2.txt

额外的好处是您可以并行获得它运行。根据您的存储系统，这可能会加快处理速度：在 raid6 上，我看到并行运行ning 10 个作业的速度提高了 6 倍。 YMMV，所以唯一可以确定的方法就是测试和测量。

GNU Parallel 是一个通用的并行器，可以很容易地在同一台机器或您可以通过 ssh 访问的多台机器上并行运行作业。

如果您有 32 个不同的作业要运行在 4 CPU 秒内执行，一个直接的并行化方法是运行每个 CPU 8 个作业:

GNU Parallel 在一个进程完成时生成一个新进程 - 保持 CPU 处于活动状态，从而节省时间：

安装

如果 GNU Parallel 未打包用于您的发行版，您可以进行个人安装，这不需要 root 访问权限。这样做可以在 10 秒内完成：

(wget -O - pi.dk/3 || curl pi.dk/3/ || fetch -o - http://pi.dk/3) | bash

有关其他安装选项，请参阅 http://git.savannah.gnu.org/cgit/parallel.git/tree/README

了解更多

查看更多示例：http://www.gnu.org/software/parallel/man.html

观看介绍视频：https://www.youtube.com/playlist?list=PL284C9FF2488BC6D1

完成教程：http://www.gnu.org/software/parallel/parallel_tutorial.html

注册电子邮件列表以获得支持：https://lists.gnu.org/mailman/listinfo/parallel