有没有一种在Ruby中读取,编辑和编写文件的好方法?
在我的在线搜索中,我发现了一些建议将其全部读入数组的内容,修改所述数组,然后将所有内容写出来.我觉得应该有一个更好的解决方案,特别是如果我正在处理一个非常大的文件.
就像是:
myfile = File.open("path/to/file.txt", "r+")
myfile.each do |line|
myfile.replace_puts('blah') if line =~ /myregex/
end
myfile.close
Run Code Online (Sandbox Code Playgroud)
当replace_puts将当前行上书写,而不是(上)写的下一行,因为它目前确实因为指针位于线(分离后)结束.
那么匹配的每一行/myregex/都会被'blah'取代.显然我想到的是涉及到的更多,就处理而言,并且将在一行中完成,但想法是一样的 - 我想逐行读取文件,并编辑某些行,以及我完成后写出来.
也许有一种方法可以说"倒回到最后一个分隔符之后"?或者each_with_index通过线索引号使用和写入某种方式?但是,我找不到任何类似的东西.
到目前为止,我所拥有的最佳解决方案是按顺序读取内容,将它们逐行写入新的(临时)文件(可能已编辑),然后使用新的临时文件覆盖旧文件并删除.同样,我觉得应该有更好的方法 - 我认为我不应该创建一个新的1gig文件只是为了编辑现有1GB文件中的某些行.
Way*_*rad 71
通常,无法在文件中间进行任意编辑.这不是Ruby的缺陷.这是文件系统的一个限制:大多数文件系统使文件最终变得容易和有效,但不是在开头或中间.因此,除非其大小保持不变,否则您将无法重写一条线.
修改一堆行有两种通用模型.如果文件不是太大,只需将其全部读入内存,修改它,然后将其写回.例如,将"Kilroy在这里"添加到文件的每一行的开头:
path = '/tmp/foo'
lines = IO.readlines(path).map do |line|
'Kilroy was here ' + line
end
File.open(path, 'w') do |file|
file.puts lines
end
Run Code Online (Sandbox Code Playgroud)
虽然简单,但这种技术有一个危险:如果程序在写入文件时被中断,你将失去部分或全部.它还需要使用内存来保存整个文件.如果其中任何一个都是一个问题,那么您可能更喜欢下一个技术.
您可以在注意时写入临时文件.完成后,重命名临时文件,以便替换输入文件:
require 'tempfile'
require 'fileutils'
path = '/tmp/foo'
temp_file = Tempfile.new('foo')
begin
File.open(path, 'r') do |file|
file.each_line do |line|
temp_file.puts 'Kilroy was here ' + line
end
end
temp_file.close
FileUtils.mv(temp_file.path, path)
ensure
temp_file.close
temp_file.unlink
end
Run Code Online (Sandbox Code Playgroud)
由于rename(FileUtils.mv)是原子的,重写的输入文件将一次性存在.如果程序中断,文件将被重写,或者不会.它不可能被部分重写.
该ensure子句不是绝对必要的:当Tempfile实例被垃圾收集时,将删除该文件.但是,这可能需要一段时间.该ensure块确保临时清理临时文件,而不必等待它被垃圾收集.
如果要逐行覆盖文件,则必须确保新行的长度与原始行的长度相同.如果新行更长,则其中一部分将写入下一行.如果新行较短,则旧行的其余部分将保持原样.临时文件解决方案确实更安全.但如果你愿意承担风险:
File.open('test.txt', 'r+') do |f|
old_pos = 0
f.each do |line|
f.pos = old_pos # this is the 'rewind'
f.print line.gsub('2010', '2011')
old_pos = f.pos
end
end
Run Code Online (Sandbox Code Playgroud)
如果线条大小确实发生变化,则有可能:
File.open('test.txt', 'r+') do |f|
out = ""
f.each do |line|
out << line.gsub(/myregex/, 'blah')
end
f.pos = 0
f.print out
f.truncate(f.pos)
end
Run Code Online (Sandbox Code Playgroud)