sed优化(基于较小数据集的大文件修改)

Zso*_*kai 8 algorithm perl awk sed large-files

我必须处理非常大的纯文本文件(超过10千兆字节,是的,我知道这取决于我们应该称之为大的),行很长.

我最近的任务涉及基于另一个文件的数据进行一些行编辑.

数据文件(应该被修改)包含1500000行,每行为例如800个字符长.每一行都是唯一的,只包含一个身份号码,每个身份号码都是唯一的)

修饰符文件例如是1800行长,包含标识号,以及应该在数据文件中修改的数量和日期.

我只是将(使用Vim正则表达式)修改器文件转换为sed,但它的效率非常低.

假设我在数据文件中有这样的一行:

(some 500 character)id_number(some 300 character)
Run Code Online (Sandbox Code Playgroud)

我需要修改300个字符的数据.

基于修饰符文件,我想出了像这样的sed行:

/id_number/ s/^\(.\{650\}\).\{20\}/\1CHANGED_AMOUNT_AND_DATA/
Run Code Online (Sandbox Code Playgroud)

所以我有1800条这样的线.

但我知道,即使在非常快的服务器上,如果我做了

sed -i.bak -f modifier.sed data.file
Run Code Online (Sandbox Code Playgroud)

它非常慢,因为它必须读取每一行的每个模式.

有没有更好的方法?

注意:我不是程序员,从未学过(在学校里)算法.我可以在服务器上使用awk,sed,一个过时的perl版本.

Mik*_*eyB 6

我建议的方法(按照希望的顺序)将处理这些数据:

  1. 一个数据库(即使是一个带索引的简单的基于SQLite的数据库也会比10GB文件上的sed/awk表现更好)
  2. 包含固定记录长度的平面文件
  3. 包含可变记录长度的平面文件

使用数据库可以处理所有那些减慢文本文件处理速度的细节(查找您关心的记录,修改数据,将其存储回数据库).在Perl的情况下查看DBD :: SQLite.

如果你想坚持使用平面文件,你需要在大文件旁边手动维护一个索引,这样你就可以更容易地查找你需要操作的记录号.或者,更好的是,也许您的身份证号码您的记录号码?

如果你有可变的记录长度,我建议转换为固定记录长度(因为它看起来只有你的ID是可变长度).如果你不能这样做,也许任何现有的数据都不会在文件中移动?然后你可以维护前面提到的索引并根据需要添加新条目,区别在于,不是指向记录号的索引,而是指向文件中的绝对位置.