如何从大文件中读取非重复的 ipv4 地址

Question

我有一个大文件，每行都有 IPv4 地址。
我需要计算其中的非重复值，但文件可能非常大。
我试图读取每一行，然后将它们放入哈希集中，但这太可怕了有什么想法吗？？？

例如，ipv4.text:

12.333.333.3
12.2.22.2
...
..
..
..
..
etc

Answer 1

将所有 IP 地址作为字符串读取到列表中，然后对列表进行排序然后您的程序要做的就是遍历列表并检查当前 IP 字符串是否与上一个相同，如果是跳过它，否则将其添加到唯一 IP 列表中。

Answer 2

这是一项内存密集型任务。常规 java 集合或您自己的典型数据结构实现可能不起作用。基本上，HashSet、LinkedHashMap、Trie实现等可能都行不通。根据您的需要，Bloom Filters 可能有效，也可能无效。

在 Java 中获取高性能集合。流行的例子有Trove, Guava, PCJ等

how read non-duplicate ipv4 addressess from a large file