如何在 Julia 中逐行读取文件？

Question

如何打开文本文件并逐行阅读？我对以下两种不同情况的答案感兴趣：

一次获取数组中的所有行。
一次处理每一行。

对于第二种情况，我不想一次将所有行都保存在内存中。

Answer 1

一次将一个文件作为行数组读入内存只是对readlines函数的调用：

julia> words = readlines("/usr/share/dict/words")
235886-element Array{String,1}:
 "A"
 "a"
 "aa"
 ⋮
 "zythum"
 "Zyzomys"
 "Zyzzogeton"

默认情况下，这会丢弃换行符，但如果你想保留它们，你可以传递关键字参数 keep=true:

julia> words = readlines("/usr/share/dict/words", keep=true)
235886-element Array{String,1}:
 "A\n"
 "a\n"
 "aa\n"
 ⋮
 "zythum\n"
 "Zyzomys\n"
 "Zyzzogeton\n"

如果您有一个已经打开的文件对象，您也可以将其传递给 readlines 函数：

julia> open("/usr/share/dict/words") do io
           readline(io) # throw out the first line
           readlines(io)
       end
235885-element Array{String,1}:
 "a"
 "aa"
 "aal"
 ⋮
 "zythum"
 "Zyzomys"
 "Zyzzogeton"

这演示了 readline 函数，它从打开的 I/O 对象中读取一行，或者在给定文件名时，打开文件并从中读取第一行：

julia> readline("/usr/share/dict/words")
"A"

如果您不想一次加载所有文件内容（或者如果您正在处理来自网络套接字的流数据），那么您可以使用 eachline 函数来获取迭代器一次生成一行：

julia> for word in eachline("/usr/share/dict/words")
           if length(word) >= 24
               println(word)
           end
       end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize

eachline 函数也可以像 readlines 一样被赋予一个打开的文件句柄以从中读取行。您还可以通过打开文件并重复调用 readline 来 "roll your own" 迭代器：

julia> open("/usr/share/dict/words") do io
           while !eof(io)
               word = readline(io)
               if length(word) >= 24
                   println(word)
               end
           end
       end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize

这等同于 eachline 为您所做的，很少需要您自己执行此操作，但如果您需要，我们就有能力。有关逐字符读取文件的更多信息，请参阅此问答：

如何在 Julia 中逐行读取文件？

How to read a file line by line in Julia?

file-io

julia