将 grep 上下文限制为在线 N 个字符

Question

将 grep 上下文限制为在线 N 个字符

我必须对一些行长度超过几千个字符的 JSON 文件进行 grep。如何限制 grep 在匹配的左侧和右侧显示最多 N 个字符的上下文？除了 grep 之外的任何工具都可以，只要它在常见的 Linux 包中可用。

这将是示例输出，对于虚构的 grep 开关？：

$ grep -r foo *
hello.txt: Once upon a time a big foo came out of the woods.

$ grep -? 10 -r foo *
hello.txt: ime a big foo came of t

Run Code Online (Sandbox Code Playgroud)

Answer 1

Jos*_* R. 32

使用 GNU grep：

N=10; grep -roP ".{0,$N}foo.{0,$N}" .

Run Code Online (Sandbox Code Playgroud)

解释：

-o => 仅打印您匹配的内容
-P => 使用 Perl 风格的正则表达式
正则表达式表示匹配 0 到$N字符，foo然后是 0 到$N字符。

如果您没有 GNU grep：

find . -type f -exec \
    perl -nle '
        BEGIN{$N=10}
        print if s/^.*?(.{0,$N}foo.{0,$N}).*?$/$ARGV:$1/
    ' {} \;

Run Code Online (Sandbox Code Playgroud)

解释：

由于我们不能再依赖于grepGNU grep，我们使用find来递归搜索文件（-rGNU的动作grep）。对于找到的每个文件，我们执行 Perl 片段。

Perl 开关：

-n 逐行读取文件
-l 去掉每行末尾的换行符，打印时放回去
-e 将以下字符串视为代码

Perl 片段在本质上与grep. 它首先将变量设置为$N您想要的上下文字符数。这BEGIN{}意味着这仅在执行开始时执行一次，而不是对每个文件中的每一行执行一次。

如果正则表达式替换有效，则为每一行执行的语句将打印该行。

正则表达式：

在行 ( )的开头懒惰地匹配任何旧事物¹，^.*?然后是.{0,$N}这种grep情况，foo然后是另一个.{0,$N}，最后懒惰地匹配任何旧事物，直到行 ( .*?$)的末尾。
我们用代替它$ARGV:$1。$ARGV是一个神奇的变量，它保存正在读取的当前文件的名称。$1是括号匹配的内容：本例中的上下文。
两端的惰性匹配是必需的，因为贪婪匹配会吃掉之前的所有字符foo而不会匹配失败（因为.{0,$N}允许匹配零次）。

¹_{也就是说，不要匹配任何东西，除非这会导致整体匹配失败。总之，匹配尽可能少的字符。}

Answer 2

Een*_*oku 31

尝试使用这个：

grep -r -E -o ".{0,10}wantedText.{0,10}" *

Run Code Online (Sandbox Code Playgroud)

-E表示您想使用扩展的正则表达式

-o告诉，你只想打印匹配

-r grep 正在文件夹中递归查找结果

正则表达式：

{0,10}告诉您要打印多少个任意字符

. 代表任意字符（字符本身在这里并不重要，只是它们的编号）

编辑：哦，我明白了，约瑟夫推荐的解决方案与我几乎相同：D

尽管它们很相似，但接受的答案对我不起作用（仍然排长队），但确实如此。N=10 的技巧不适用于 bash shell。 (2认同)

Answer 3

Eri*_*ski 20

将标准输出cut与-b标志连接；您可以将 grep 的输出指示为每行仅字节 1 到 400。

grep "foobar" * | cut -b 1-400

Run Code Online (Sandbox Code Playgroud)

比所有正则表达式废话好多了！ (4认同)
这仅给出匹配行的前 400 个字节。它不会在匹配前后给出 N 个字节。更糟糕的是，假设 'foobar' 出现在第 400 个字节之后，那么您甚至不会在输出中看到匹配项！ (3认同)
@joseph是的，但我使用此命令限制 grep 输出的唯一原因是，有时会在 5 GB 的 json 文件中找到匹配项，其中所有内容都在一行上，因此 grep 返回 5000 页的 stdout对我来说没用。我宁愿只看到前 400 个字节，如果突出显示不存在，我从一个巨大的文件中知道这一点，而且大多数时候这都不是我想要的。 (2认同)

Answer 4

xuh*_*dev 6

摘自： http: //www.topbug.net/blog/ 2016/08/18/truncate-long-matching-lines-of-grep-a-solution-that-preserves-color/ 和 https://stackoverflow。 com/a/39029954/1150462

建议的方法".{0,10}<original pattern>.{0,10}"非常好，除了突出显示颜色经常混乱之外。我创建了一个具有类似输出的脚本，但颜色也被保留：

#!/bin/bash

# Usage:
#   grepl PATTERN [FILE]

# how many characters around the searching keyword should be shown?
context_length=10

# What is the length of the control character for the color before and after the matching string?
# This is mostly determined by the environmental variable GREP_COLORS.
control_length_before=$(($(echo a | grep --color=always a | cut -d a -f '1' | wc -c)-1))
control_length_after=$(($(echo a | grep --color=always a | cut -d a -f '2' | wc -c)-1))

grep -E --color=always "$1" $2 | grep --color=none -oE ".{0,$(($control_length_before + $context_length))}$1.{0,$(($control_length_after + $context_length))}"

Run Code Online (Sandbox Code Playgroud)

假设脚本保存为grepl，那么grepl pattern file_with_long_lines应该显示匹配的行，但匹配字符串周围只有 10 个字符。

归档时间：	11 年前
查看次数：	56193 次
最近记录：	6 年前