grep在同一行上存在2个单词

107 grep

如何grep包含两行输入字的行?我正在寻找包含两个单词的行,我该怎么做?我试过像这样的管子:

grep -c "word1" | grep -r "word2" logs
Run Code Online (Sandbox Code Playgroud)

它只是在第一个管道命令后卡住了.为什么?

hou*_*oft 154

你为什么通过-c?这只会显示比赛的数量.同样,没有理由使用-r.我建议你看man grep.

要在同一行上查找2个单词,只需执行以下操作:

grep "word1" FILE | grep "word2"
Run Code Online (Sandbox Code Playgroud)

grep "word1" FILE将从FILE中打印出包含word1的所有行,然后grep "word2"将打印出包含word2的行.因此,如果使用管道组合这些,它将显示包含word1和word2的行.

如果您只想计算同一行上2个单词的行数,请执行以下操作:

grep "word1" FILE | grep -c "word2"
Run Code Online (Sandbox Code Playgroud)

此外,为了解决您的问题,为什么它会卡住:在grep -c "word1",您没有指定文件.因此,grep期望输入stdin,这就是为什么它似乎挂起.您可以按Ctrl+ D发送EOF(文件结尾)以便退出.

  • 当您感到困惑时,手册页几乎是您想要澄清的最后一个位置.他们比随机猜测更令人困惑. (38认同)
  • @houbysoft然后我们必须同意不同意.在8年的大部分时间里,我一直在使用Linux和朋友,而且我仍然宁愿谷歌而不是使用手册页. (7认同)
  • @TotalFrickinRockstarFromMars:我不同意.确实,在开始时它们可能看起来令人困惑,但是一旦习惯了使用它们的格式就非常简单了.无论如何,我把它包含在答案中更多的是为了"教一个人怎么钓鱼"一点,我预计OP不会知道它们,而且man page可以变得非常方便. (5认同)
  • @geneorama当然,但也许那些开始写作的人会编写更好的手册页,这不会是一个问题.手册页是为已经了解该工具的人编写的,只需要一点提醒.它们不是为那些试图弄清楚他们在做什么的人而写的. (3认同)

Jon*_*ler 64

处方

在问题中一个简单的重写命令是:

grep "word1" logs | grep "word2"
Run Code Online (Sandbox Code Playgroud)

第一个grep从'logs'文件中找到带有'word1'的行,然后将它们输入到第二个中grep,查找包含'word2'的行.

但是,没有必要使用这样的两个命令.你可以使用扩展grep(grep -Eegrep):

grep -E 'word1.*word2|word2.*word1' logs
Run Code Online (Sandbox Code Playgroud)

如果你知道'word1'将在行上的'word2'之前,你甚至不需要替代方案,而且常规方法grep会:

grep 'word1.*word2' logs
Run Code Online (Sandbox Code Playgroud)

"一个命令"变体的优点是只有一个进程在运行,因此包含"word1"的行不必通过管道传递给第二个进程.这有多重要取决于数据文件的大小以及多少行匹配'word1'.如果文件很小,性能可能不是问题,运行两个命令就可以了.如果文件很大但只有几行包含'word1',则管道上传递的数据不会太多,并且使用两个命令就可以了.但是,如果文件很大并且经常出现'word1',那么您可能会将大量数据传递到管道中,而单个命令可以避免这种开销.相反,正则表达式更复杂; 您可能需要对其进行基准测试以找出最佳效果 - 但前提是性能确实很重要.如果运行两个命令,则应该在第一个中选择不常出现的单词,grep以最小化第二个处理的数据量.

诊断

最初的脚本是:

grep -c "word1" | grep -r "word2" logs
Run Code Online (Sandbox Code Playgroud)

这是一个奇怪的命令序列.第一种grep是计算标准输入上'word1'的出现次数,并在其标准输出上打印该数字.直到您指示EOF(例如通过键入Control-D),它将坐在那里,等待您输入内容.第二个grep是在目录下面的文件中递归搜索"word2" logs(或者,如果它是文件,则在文件中logs).或者,在我的情况下,它将失败,因为既没有文件也没有调用logs我正在运行管道的目录.请注意,第二个grep根本不读取其标准输入,因此管道是多余的.

使用Bash,父shell会一直等到管道中的所有进程都退出,所以它会等待grep -c完成,直到你指示EOF才会执行.因此,您的代码似乎陷入困境.使用Heirloom Shell,第二个grep完成并退出,shell再次提示.现在你有两个进程在运行,第一个grep和shell,它们都试图从键盘读取,并且它不确定哪一个获得任何给定的输入行(或任何给定的EOF指示).

请注意,即使您输入数据作为第一个输入grep,您也只能获得输出中包含"word2"的任何行.


脚注:

有一段时间,答案是:

grep -E 'word1.*word2|word2.*word1' "$@"
grep 'word1.*word2' "$@"
Run Code Online (Sandbox Code Playgroud)

这引发了以下评论.


Col*_*III 8

你可以使用awk.像这样...

cat <yourFile> | awk '/word1/ && /word2/'
Run Code Online (Sandbox Code Playgroud)

订单并不重要.所以,如果你有一个文件,...

一个名为file1的文件包含:

word1 is in this file as well as word2
word2 is in this file as well as word1
word4 is in this file as well as word1
word5 is in this file as well as word2
Run Code Online (Sandbox Code Playgroud)

然后,

/tmp$ cat file1| awk '/word1/ && /word2/'
Run Code Online (Sandbox Code Playgroud)

会导致,

word1 is in this file as well as word2
word2 is in this file as well as word1
Run Code Online (Sandbox Code Playgroud)

是的,awk比较慢.

  • 对cat(1)的无用使用 (2认同)
  • 单个 Awk 仍然可能比两个单独的 `grep` 进程快。(但当然,额外的 [useless `cat`](/questions/11710552/useless-use-of-cat) 过程或多或少会抵消这种差异。) (2认同)

小智 7

主要问题是你没有提供任何输入的第一个grep.您需要重新排序命令

grep "word1" logs | grep "word2"
Run Code Online (Sandbox Code Playgroud)

如果你想计算出现次数,那么在第二个grep上放一个'-c'.


小智 5

你试试下面的命令

cat log|grep -e word1 -e word2
Run Code Online (Sandbox Code Playgroud)

  • 这些命令搜索至少一个单词,而不是全部。和猫| 不必要,您可以为文件提供grep最后一个参数 (2认同)
  • 可能没用猫了?! (2认同)

ken*_*orb 5

git grep

以下是使用布尔git grep表达式组合多个模式的语法:

git grep -e pattern1 --and -e pattern2 --and -e pattern3
Run Code Online (Sandbox Code Playgroud)

上面的命令将立即打印匹配所有模式的行。

如果文件不受版本控制,请添加--no-index参数。

搜索当前目录中不受 Git 管理的文件。

检查man git-grep寻求帮助。

也可以看看: