在已排序的文本文件中进行二分查找

Ole*_*nge 14 search text-processing

我有一个包含数十亿行可变长度的大排序文件。给定一个新行，我想知道如果它已包含在排序文件中，它将获得哪个字节数。

例子

a\n
c\n
d\n
f\n
g\n

Run Code Online (Sandbox Code Playgroud)

给定输入 'foo' 我会得到输出 9。

这很容易通过简单地遍历整个文件来完成，但是由于数十亿行的可变长度，进行二分搜索会更快。

这样的文本处理工具是否已经存在？

编辑：

现在可以了：https : //gitlab.com/ole.tange/tangetools/blob/master/2search

（这不是您问题的正确答案，只是一个起点。）

我在类似的情况下使用了sgrep（排序的 grep）。

不幸的是（我们需要当前状态）它没有字节偏移量输出；但我认为它可以很容易地添加。

我不知道有什么标准工具可以做到这一点。不过你可以自己写。例如，下面的 ruby 脚本应该可以完成这项工作。

file, key = ARGV.shift, ARGV.shift
min, max = 0, File.size(file)

File.open(file) do |f|
  while max-min>1 do
    middle = (max+min)/2
    f.seek middle
    f.readline
    if f.eof? or f.readline>=key
      max = middle
    else
      min = middle
    end
  end
  f.seek max
  f.readline
  p f.pos+1
end

Run Code Online (Sandbox Code Playgroud)

这有点棘手，因为在查找之后，您通常位于某行的中间，因此需要执行一个 readline 才能到达下一行的开头，您可以读取该行并将其与您的密钥进行比较。

归档时间：	9 年，11 月前
查看次数：	5126 次
最近记录：	5 年，6 月前

'sort -u' 对巨大文件的可扩展性 24

更多相关链接

逐个字符读取和处理字符串，但允许用户对输入进行简单的行编辑 5

如何显示字符串的数字字符序列？ 4

如何将单列文件转换为单行？ 4

在匹配模式之后仅返回行的一部分 3

Grep 查找字符串，但忽略带有字符串的注释掉的项目 3

在文件中的某一行之前插入一行 3

从行中复制单词并附加到另一个文件中的行 2

无论模式是否为多行，如何仅获取 pdf 文件中模式的页码？ 2

用该文件的内容替换 JSON 文档中的文件名 0

如何循环遍历当前目录和子目录中的所有文件来查找字符串？ 0

如何有效获取脚本的执行时间？ 523

如何从组中删除用户？ 430

为您的终端和 shell 环境着色？ 284

分号和双&&&有什么区别 200

Rsync 过滤器：仅复制一种模式 178

dd 与 cat - 这些天 dd 仍然相关吗？ 147

命令列出 PostgreSQL 用户帐户？ 102

为什么我的正则表达式适用于 X 而不适用于 Y？ 94

所有 bash 脚本都与 `zsh` 兼容吗？ 91

如何使用 bash 强制 yum 安装而不提示用户？ 91