从文件的每一行中提取字符串

Question

我有一个文件，其中每一行都包含一个句子，其中在字符 > 和 < 之间找到一个单词。例如：

Martin went shopping at >Wallmart< and lost his wallet
French food >tastes< great

我正在寻找从 shell 运行的命令，该命令将为每一行打印 ">" 和 "<" 内的单词。

提前致谢。

Answer 1

怎么样grep？

grep -oP "(?<=\>).*(?=<)"  file

输出：

Wallmart
tastes

编辑：

遵循@Toby Speight 评论，并假设 > 和 < 之间只有单词，为了避免在其他上下文中匹配 > 和 < 命令应该是

grep -oP "(?<=\>)\w+(?=<)"  file

@user1993 `-o` 选项*仅*检索匹配项，而不是行（grep 的默认行为）。`-P` 选项允许像正则表达式一样执行 perl。`(?<=\>)content(?=<)` 捕获模式 >content<，*content* 是另一个正则表达式，这就是返回的内容。 (3认同)

Answer 2

对于awk：

awk -F '[><]' '{print $2}' file

将字段分隔符设置为>or<并打印第二个字段，即这两个字符之间的字段。

对于sed：

sed 's|.*>\(.*\)<.*|\1|' file

这使用 () 来打印>它之后的东西和<它之前的东西和它之前的东西之间的东西。

输出

Wallmart
tastes

老实说，awk 解决方案 : 也会匹配：`<something<` 或 `>anotherthing>` ...如果一行包含，比如说，`>> this is >important<`，它会发出 `" "`（因为它是前 2 个 `>` 之间的空字段）。并且您的 sed : 将匹配“<something with possible > 和 < in it .. >”的*longuest* 出现在一行中。您可以使用（一点）更好的版本：`sed -e 's#.*>\([^><]*\)<.*#\1#'`（将用第一次出现的行替换`<某事>`) (3认同)