如何从大文件中读取非重复的 ipv4 地址
how read non-duplicate ipv4 addressess from a large file
我有一个大文件,每行都有 IPv4 地址。
我需要计算其中的非重复值,但文件可能非常大。
我试图读取每一行,然后将它们放入哈希集中,但这太可怕了
有什么想法吗???
例如,ipv4.text
:
12.333.333.3
12.2.22.2
...
..
..
..
..
etc
将所有 IP 地址作为字符串读取到列表中,然后对列表进行排序然后您的程序要做的就是遍历列表并检查当前 IP 字符串是否与上一个相同,如果是跳过它,否则将其添加到唯一 IP 列表中。
这是一项内存密集型任务。常规 java 集合或您自己的典型数据结构实现可能不起作用。基本上,HashSet、LinkedHashMap、Trie实现等可能都行不通。根据您的需要,Bloom Filters 可能有效,也可能无效。
我有一个大文件,每行都有 IPv4 地址。
我需要计算其中的非重复值,但文件可能非常大。
我试图读取每一行,然后将它们放入哈希集中,但这太可怕了
有什么想法吗???
例如,ipv4.text
:
12.333.333.3
12.2.22.2
...
..
..
..
..
etc
将所有 IP 地址作为字符串读取到列表中,然后对列表进行排序然后您的程序要做的就是遍历列表并检查当前 IP 字符串是否与上一个相同,如果是跳过它,否则将其添加到唯一 IP 列表中。
这是一项内存密集型任务。常规 java 集合或您自己的典型数据结构实现可能不起作用。基本上,HashSet、LinkedHashMap、Trie实现等可能都行不通。根据您的需要,Bloom Filters 可能有效,也可能无效。