如何在 Julia 中逐行读取文件?
How to read a file line by line in Julia?
如何打开文本文件并逐行阅读?我对以下两种不同情况的答案感兴趣:
- 一次获取数组中的所有行。
- 一次处理每一行。
对于第二种情况,我不想一次将所有行都保存在内存中。
一次将一个文件作为行数组读入内存只是对readlines
函数的调用:
julia> words = readlines("/usr/share/dict/words")
235886-element Array{String,1}:
"A"
"a"
"aa"
⋮
"zythum"
"Zyzomys"
"Zyzzogeton"
默认情况下,这会丢弃换行符,但如果你想保留它们,你可以传递关键字参数 keep=true
:
julia> words = readlines("/usr/share/dict/words", keep=true)
235886-element Array{String,1}:
"A\n"
"a\n"
"aa\n"
⋮
"zythum\n"
"Zyzomys\n"
"Zyzzogeton\n"
如果您有一个已经打开的文件对象,您也可以将其传递给 readlines
函数:
julia> open("/usr/share/dict/words") do io
readline(io) # throw out the first line
readlines(io)
end
235885-element Array{String,1}:
"a"
"aa"
"aal"
⋮
"zythum"
"Zyzomys"
"Zyzzogeton"
这演示了 readline
函数,它从打开的 I/O 对象中读取一行,或者在给定文件名时,打开文件并从中读取第一行:
julia> readline("/usr/share/dict/words")
"A"
如果您不想一次加载所有文件内容(或者如果您正在处理来自网络套接字的流数据),那么您可以使用 eachline
函数来获取迭代器一次生成一行:
julia> for word in eachline("/usr/share/dict/words")
if length(word) >= 24
println(word)
end
end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize
eachline
函数也可以像 readlines
一样被赋予一个打开的文件句柄以从中读取行。您还可以通过打开文件并重复调用 readline
来 "roll your own" 迭代器:
julia> open("/usr/share/dict/words") do io
while !eof(io)
word = readline(io)
if length(word) >= 24
println(word)
end
end
end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize
这等同于 eachline
为您所做的,很少需要您自己执行此操作,但如果您需要,我们就有能力。有关逐字符读取文件的更多信息,请参阅此问答:
如何打开文本文件并逐行阅读?我对以下两种不同情况的答案感兴趣:
- 一次获取数组中的所有行。
- 一次处理每一行。
对于第二种情况,我不想一次将所有行都保存在内存中。
一次将一个文件作为行数组读入内存只是对readlines
函数的调用:
julia> words = readlines("/usr/share/dict/words")
235886-element Array{String,1}:
"A"
"a"
"aa"
⋮
"zythum"
"Zyzomys"
"Zyzzogeton"
默认情况下,这会丢弃换行符,但如果你想保留它们,你可以传递关键字参数 keep=true
:
julia> words = readlines("/usr/share/dict/words", keep=true)
235886-element Array{String,1}:
"A\n"
"a\n"
"aa\n"
⋮
"zythum\n"
"Zyzomys\n"
"Zyzzogeton\n"
如果您有一个已经打开的文件对象,您也可以将其传递给 readlines
函数:
julia> open("/usr/share/dict/words") do io
readline(io) # throw out the first line
readlines(io)
end
235885-element Array{String,1}:
"a"
"aa"
"aal"
⋮
"zythum"
"Zyzomys"
"Zyzzogeton"
这演示了 readline
函数,它从打开的 I/O 对象中读取一行,或者在给定文件名时,打开文件并从中读取第一行:
julia> readline("/usr/share/dict/words")
"A"
如果您不想一次加载所有文件内容(或者如果您正在处理来自网络套接字的流数据),那么您可以使用 eachline
函数来获取迭代器一次生成一行:
julia> for word in eachline("/usr/share/dict/words")
if length(word) >= 24
println(word)
end
end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize
eachline
函数也可以像 readlines
一样被赋予一个打开的文件句柄以从中读取行。您还可以通过打开文件并重复调用 readline
来 "roll your own" 迭代器:
julia> open("/usr/share/dict/words") do io
while !eof(io)
word = readline(io)
if length(word) >= 24
println(word)
end
end
end
formaldehydesulphoxylate
pathologicopsychological
scientificophilosophical
tetraiodophenolphthalein
thyroparathyroidectomize
这等同于 eachline
为您所做的,很少需要您自己执行此操作,但如果您需要,我们就有能力。有关逐字符读取文件的更多信息,请参阅此问答: