根据最后一个点拆分并使用字符串的最后部分创建一个新列

Question

我有一个包含 2 列的文件。第一列中有几个字符串 (ID)，第二列中有多个值。在字符串中，有许多可以变化的点。我想根据最后一个点拆分这些字符串。我在论坛上找到了如何删除最后一个点之后的最后一个过去，但我不想删除它。我想用字符串的最后一部分创建一个新列，使用 bash 命令（例如 awk）

字符串示例：

   5_8S_A.3-C_1.A   50
   6_FS_B.L.3-O_1.A 20 
   H.YU-201.D   80
   UI-LP.56.2011.A  10

输出示例：

   5_8S_A.3-C_1 A   50
   6_FS_B.L.3-O_1   A   20 
   H.YU-201 D   80
   UI-LP.56.2011    A   10

我尝试使用以下命令解决它，但如果我在字符串中只有 1 个点，它就可以工作：

awk -F' ' '{{split(, arr, "."); print arr[1] "\t" arr[2] "\t" }}' file.txt

Answer 1

您可以使用这个 sed:

sed -E 's/^([[:blank:]]*[^[:blank:]]+)\.([^[:blank:]]+)/ /' file

   5_8S_A.3-C_1 A   50
   6_FS_B.L.3-O_1 A 20
   H.YU-201 D   80
   UI-LP.56.2011 A  10

详情：

^: 开始
([[:blank:]]*[^[:blank:]]+)：捕获第 2 组以匹配 0 个或多个白色space 后跟 1+ 个非白色space 字符。
\.：匹配一个点。由于此正则表达式模式是 greedy 它将匹配到最后一个点
([^[:blank:]]+)：捕获第 2 组以匹配 1+ 个非白色space 字符
：替换以在捕获值 #1 和捕获值 #2

Answer 2

假设：

每行由两个（白色）space 分隔字段组成
第一个字段至少包含一个句点（.）

坚持 OP 的愿望 (?) 使用 awk:

awk '
{ n=split(,arr,".")            # split first field on period (".")
  pfx=""
  for (i=1;i<n;i++) {            # print all but the nth array entry
      printf "%s%s",pfx,arr[i]
      pfx="."}
  print "\t" arr[n] "\t" }     # print last array entry and last field of line
' file.txt

删除评论并减少到一行：

awk '{n=split(,arr,"."); pfx=""; for (i=1;i<n;i++) {printf "%s%s",pfx,arr[i]; pfx="."}; print "\t" arr[n] "\t" }' file.txt

这会生成：

5_8S_A.3-C_1    A       50
6_FS_B.L.3-O_1  A       20
H.YU-201        D       80
UI-LP.56.2011   A       10

Answer 3

根据您展示的示例，这里是 rev + awk 解决方案的另一种变体。

rev Input_file | awk '{sub(/\./,OFS)} 1' | rev

解释： 简单的解释就是，使用rev倒序打印（从最后一个字符到第一个字符）对于每一行，然后将其输出作为标准输入发送到 awk 程序，其中用空格替换第一个点（仅根据 OP 显示的样本是最后一个点）并打印所有行。然后再次将此输出作为标准输入发送到 rev 以按正确顺序打印输出（以消除此处 1st rev 命令的影响）。

Answer 4

$ sed 's/\.\([^.]*$\)/\t/' file
5_8S_A.3-C_1    A       50
6_FS_B.L.3-O_1  A       20
H.YU-201        D       80
UI-LP.56.2011   A       10

根据最后一个点拆分并使用字符串的最后部分创建一个新列

split based on the last dot and create a new column with the last part of the string

awk

tabs

split