为什么 Guava 布隆过滤器性能如此差？

Question

我正在尝试确定 Google Guava's Bloom Filter 是否适用于我的项目，但是在我的测试中，我得到了极高的误报率（可能是由于高水平的哈希碰撞？）。

我运行实验使用了2个数据文件。第一个包含我放入布隆过滤器的 2200 万个唯一数字（整数）。第二个包含另一组完全不同的数字，也是唯一的，我用它来测试布隆过滤器的误报。

这是其中一些数字的示例：

我的代码如下：

private static void experiment() {

    // Load 22m unique IDs from file
    ArrayList<String> skus = loadSkus("sku_1.txt");
    int numInsertions = skus.size();

    // Google Guava Bloom Filter
    Funnel<String> strFunnel = (Funnel<String>) (from, into) -> into.putString(from, Charset.forName("US-ASCII"));
    BloomFilter<String> bf = BloomFilter.create(strFunnel, numInsertions, 0.001);

    for (String sku : skus) {
        bf.put(sku);
    }

    int falsePositiveCount = 0;
    double falsePositiveRate;

    // Load another set of unique IDs that are NOT in the first set
    ArrayList<String> skus2 = loadSkus("sku_2.txt");

    for (String sku : skus2) {
        if (bf.mightContain(sku)) {
            falsePositiveCount++;
        }
    }

    falsePositiveRate = (double)falsePositiveCount / (double)skus2.size();

    System.out.println("Expected FPP:     " + Double.toString(bf.expectedFpp()));
    System.out.println("Measured FP rate: " + Double.toString(falsePositiveRate));
}

结果：

Expected FPP:     7.276343403395039E-27
Measured FP rate: 0.9979594547309587

测得的误报率高得令人难以置信！这不是该数据结构的行为方式。我是否以某种方式滥用了图书馆？我真的很想用 Bloom Filter 实现适当的性能。

Answer 1

我无法重现您的结果。我唯一能想到的就是跟你的数据文件有关系？

我使用了您发布的相同代码，只是我生成的 SKU 是这样的：

final List<String> skus = ContiguousSet.create(Range.closedOpen(0, 22000000), DiscreteDomain.integers()).stream().map(String::valueOf).collect(Collectors.toList());

和

final List<String> skus2 = ContiguousSet.create(Range.closedOpen(-22000000, 0), DiscreteDomain.integers()).stream().map(String::valueOf).collect(Collectors.toList());

结果：

Expected FPP:     0.0010001451412535098
Measured FP rate: 9.963636363636364E-4

为什么 Guava 布隆过滤器性能如此差？

Why is Guava Bloom Filter Performing so Poorly?

java

hash

bloom-filter

guava