Knuth-Morris-Pratt 算法中的前缀函数计算

Prefix-function computation in Knuth-Morris-Pratt Algorithm

所以对于下面的子字符串

1 2 3 4 5 6 7 8 9 10 11

a b c d a b c d a b  x

前缀函数是什么?我和我的一个朋友计算了它,我们得到了不同的结果,我的是:

a b c d a b c d a b x

0 0 0 0 1 2 3 4 5 6 2

和他的:

a b c d a b c d a b x

0 0 0 0 1 2 3 4 1 2 0

如果我错了,那是为什么?

我的 KMP 函数在 java:

public int[] KMP(String val) {
    int i = 0;
    int j = -1;
    int[] result = new int[val.length() + 1];
    result[0] = -1;
    while (i < val.length()) {
        while (j >= 0 && val.charAt(j) != val.charAt(i)) {
            j = result[j];
        }
        j++;
        i++;
        result[i] = j;
    }
    return result;

}

前缀数组的结果:

[-1, 0, 0, 0, 0, 1, 2, 3, 4, 5, 6, 0]

你的答案都不正确。前缀函数或部分匹配 table 如下所示:

a b c d a b c d a b x

0 0 0 0 1 2 3 4 5 6 0

您的答案在索引 10 之前是正确的。但是在最后一个索引中您做错了。部分匹配 table 的索引 11 的值为 0 的原因是因为没有适当的前缀匹配字符串的任何适当的后缀直到索引 11。因为在这个位置的所有适当的后缀都将以 x 结尾并且没有适当的此位置的前缀将以 x.

结尾

如果您无法理解前缀函数或部分索引 table 的实际含义,您可以查看此 document。它有一个很好的解释。希望对你有帮助。

前缀table应该是:

a b c d a b c d a b x
0 0 0 0 1 2 3 4 5 6 0

所以给出的两个版本都不正确。

你的最后一个条目table

a b c d a b c d a b x
0 0 0 0 1 2 3 4 5 6 2
                    ^
                    |
                this one

为了正确起见,a b c d a b c d a b x 的长度为 2 的后缀 b x 也必须是其长度为 2 的前缀,即 a b

如果条目在前缀 table 中不为零,相应的前缀和后缀已在下面的 table 中标记:

a                       0
a b                     0
a b c                   0
a b c d                 0

a  b c d a              1
-
         =
a b c d a b             2
---
        ===

a b c d a b c           3
-----
        =====

a b c d a b c d         4
-------
        =======

a b c d a b c d a       5
---------
        =========

a b c d a b c d a b     6
-----------
        ===========

a b c d a b c d a b  x   0

你的两个答案都是错误的。正确的是

a b c d a b c d a b x

0 0 0 0 1 2 3 4 5 6 0