修改和比较两个文件的相似度

Question

我有 2 个文件。 file1的样本值如下：

file2的示例值如下：

我正在尝试修改 file1 并创建一个具有以下值的 file3（如您所见，最后一个中的值file1 的列不相关）：

另外，需要修改file2，创建一个file4，其值如下（文件中的值file2 的最后一列无关紧要):

创建file3和file4后，我打算使用diff[=49检查它们的相似性=] 效用。要生成 file3 和 file4，我正在尝试编写一个 awk 脚本。但是作为 awk 的初学者，我发现这个任务非常耗时。任何指导将不胜感激。

Answer 1

我们可以从第一行的 </code> 中获取值，然后在公式中使用它来计算偏移量。这假设最小的 <code> 在第一行。

awk 'NR==1 { i= } { print -i+1, }'

例如，您可以这样做：

awk 'NR==1 { i= } { print -i+1, }' file1 > file3
awk 'NR==1 { i= } { print -i+1, }' file2 > file4
diff file3 file4

这是我之前的版本，在我注意到您真的在寻找偏移量之前。我原以为您只是想根据 </code> 中的更改来更改它。我们可以设置一个变量来检查行之间的值变化，并且只在 <code> 变化时增加计数器。这假定已分组。

awk 'n!= { i++ } { print i, } { n= }'

例如，您可以这样做：

awk 'n!= { i++ } { print i, } { n= }' file1 > file3
awk 'n!= { i++ } { print i, } { n= }' file2 > file4
diff file3 file4

Modifying and Comparing similarity of two files