shell 用于压缩包含记录数和特定命名约定的文件的脚本

Question

我们想将文件压缩到目录中，记录数和目录命名约定遵循 zip 文件。

例如：我们有两个带有日期名称的目录（2021-10-01、2021-10-02，每个父目录都包含带有国家名称的子目录，并且这个国家目录包含文件数。

2021-10-01/USA, 2021-10-01/UK
2021-10-02/USA, 2021-10-02/USA

我们想压缩记录数量有限的国家/地区目录，zip 文件应命名为 parentdirectory_Countrydirectory.zip(2021-10-01_USA.zip)。

我的脚本接受日期作为参数，并将其传递给 sql 查询，该查询将提取具有日期父目录结构的数据，其中包含来自数据库的文件的数据中的国家/地区子目录，但我只是在此处跳过脚本的 sql 查询部分。

#!/bin/bash
startd=
endd=

compress () {
 startd=$(date -d $startd +%Y%m%d)
        endd=$(date -d $endd +%Y%m%d)
        while [[ $startd -le $endd ]]
        do
           tempdate=$(date -d $startd +"%Y-%m-%d")
           dirl+=" $tempdate"
           startd=$(date -d"$startd + 1 day" +"%Y%m%d")
        done
        echo $dirl

 for j in $dirl
 do
    if [ -d "$j" ]; then
       cd $j
       for d in *
       do
           zip ${j}_${d}.zip $d
           mv ${j}_${d}.zip ../
       done
     else
       echo "no data extracted on: $j"
     fi
   cd ..
 done
}

我想压缩记录数量限制的文件，名称可以是 parentdirectory_subdirectory1.zip 具有相同命名约定的增量。

注意：记录数是指通过 sql 查询提取的子目录中的文件，USA 子目录可能包含数千个文件，所以我想将 zip 与子目录文件分开，例如 200 files 然后使用相同的命名约定创建文件，例如 2021-10-01_USA.zip 2021-10-01_USA1.zip 等

Answer 1

在 Bash 中这有点棘手，但您可以使用例如xargs 方便地将一长串项目拆分为可管理的块。接下来的挑战是为每个 zip 文件传递一个新的文件名。这是一种快速而肮脏的尝试。

compress () {
    local startd=$(date -d "" +%Y%m%d)
    local endd=$(date -d "" +%Y%m%d)
    local mm
    local j
    local d
    while [[ $startd -le $endd ]]
    do
        mm=${startd#??}
        j="${startd%????}-${mm%??}-${mm#??}")
        startd=$(date -d"$startd + 1 day" +"%Y%m%d")

        if [ -d "$j" ]; then
            for d in "$j"/*/; do
                printf '%s[=10=]' "$j"/"$d"/* |
                xargs -r -0 -n 200 sh -c '
                    for ((i=0; i<=99; i++)); do
                        test -e "[=10=]${i#0}.zip" || break
                    done
                    zip -j "[=10=]${i#0}.zip" "$@"' ../"${j}_${d}"
             done
         else
             echo "[=10=]: no data extracted on: $j" >&2
         fi
     done
}

随机观察：

请尽量使用标准缩进；空格的随机变化会让读者和你自己感到困惑。
调用函数时应将参数传递给函数，而不是存储在全局变量中。
随机引用修复；另见 When should I wrap quotes around a shell variable?
~~对我们要循环的日期使用数组~~其实只是一个一个处理日期然后忘记它们，而不是先单独收集到内存中。
与其再次调用 date 以在数组中以 yyyy-mm-dd 格式插入破折号，不如使用一系列参数扩展。这在代码方面有点乏味，但避免了调用外部进程来处理 shell 可以使用内部设施
直接在父目录中创建 zip 文件，而不是在完成后移动它们
我们使用 zip -j 从输入文件中删除目录名称，这样我们就不必 cd 进出每个目录。（如果你有目录符号链接，这有点容易出错。）
将错误消息发送到标准错误 >&2 并在消息本身中包含创建消息的脚本的名称。

真正的内容在稍微复杂的 xargs 调用中。

我们printf 将要压缩的文件名作为空分隔项，以便我们可以正确处理任意文件名。（参见 http://mywiki.wooledge.org/BashFAQ/020 for details.) The -0 argument to xargs is a GNU extension to enable this. The -r argument simply says to do nothing if there is no input (i.e. there were no files in the directory; probably shopt -s nullglob too）。

-n 200 说限制一次最多输入 200 个文件，然后我们将这 200 个或更少的文件名传递给 sh -c 脚本。

... 它接收我们要创建的 zip 文件的基本名称 [=24=] （这只是一个 hack，以避免必须从参数列表中单独 shift 关闭参数它接收；sh -c 的第一个参数通常不被使用，所以我们用它来走私这个值）。它使用一个简单的 for 循环来查找具有此前缀的第一个未使用的名称，第一个使用空字符串。

（也许改变这个 - 我认为你提出的约定有点混乱。我宁愿只有 xxx.zip 只有一个文件在集合中，并且 xxx1.zip, xxx2.zip, 等有几个时。)

一旦我们确定了文件名，我们只需zip我们收到的文件作为该文件的参数。

xargs 负责将输入文件集分成所需大小的块，并根据需要多次调用 sh -c 脚本。

起初这可能有点吓人；这在像 Python.

这样的现代脚本语言中会更容易一些

shell 用于压缩包含记录数和特定命名约定的文件的脚本

shell script to zip the files with number of records and with particular naming convention

unix

linux

bash

shell

sh