在特定列中搜索模式并输出整行

Kit*_*man 8 grep sed awk text-processing

我在 HDFS 中工作，并试图获取第 4 列以数字 5 开头的整行：

100|20151010|K|5001
695|20151010|K|1010
309|20151010|R|5005
410|20151010|K|5001
107|20151010|K|1062
652|20151010|K|5001

Run Code Online (Sandbox Code Playgroud)

因此应该输出：

100|20151010|K|5001
309|20151010|R|5005
410|20151010|K|5001
652|20151010|K|5001

Run Code Online (Sandbox Code Playgroud)

最简单的方法可能是awk：

awk -F'|' '$4~/^5/' file

Run Code Online (Sandbox Code Playgroud)

该-F'|'设置字段分隔符|。该$4~/^5/如果第四场开始会是真的5。awk当某项评估为 true 时的默认操作是打印当前行，因此上面的脚本将打印您想要的内容。

其他选择是：

珀尔
```
perl -F'\|' -ane 'print if $F[3]=~/^5/' file
```
Run Code Online (Sandbox Code Playgroud)
同样的想法。所述-a开关使perl上由给定的值分割其输入字段-F到阵列@F。然后我们打印数组的第 4 个元素（字段）（数组从 0 开始计数）是否以 a 开头5。
grep
```
grep -E  '^([^|]*\|){3}5' file 
```
Run Code Online (Sandbox Code Playgroud)
正则表达式将匹配一串 non-|后跟|3 次，然后是5.
GNU 或 BSD sed
```
sed -En '/([^|]*\|){3}5/p' file 
```
Run Code Online (Sandbox Code Playgroud)
在-E上扩展正则表达式匝数和-n禁止常规输出。正则表达式与grep上述相同，p最后sed只打印与正则表达式匹配的行。

这将打印所有匹配的行|5，然后不再打印|，直到行尾：

grep '|5[^|]*$' <in >out

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年前
查看次数：	27880 次
最近记录：	10 年前

从表格数据创建 ASCII 艺术表 13

更多相关链接

使用 awk 根据另一列的值对一列的值求和 98

基于字段 1、字段 2 排序但保留字段 1 排序并忽略第二排序中的空值/空白 5

查找出现在另一个文本文件中的文本文件中的所有单词 5

如何修剪文本文件的内容？ 5

如何在csv中用空格替换逗号，但在每列后插入不同数量的空格？ 4

如何从文件中创建字符串列表，该字符串在自己的行中 3

AWK：如何从 CSV 中删除重复的标题行？ 3

使用 awk 并遍历目录中的文件 2

在特定列中使用 awk 提取 2

使用 bash 中的 awk，如何在“if”子句中执行多个语句？ 0

递归 mkdir 442

GPU 使用监控 (CUDA) 328

为命令的每一行输出添加时间戳 282

如何在 Linux 中将签名 .png 添加到 PDF？ 178

如何在查找中组合 2 -name 条件？ 139

了解 rsync 的 --info=progress2 输出 117

为什么 grep 默认不忽略二进制文件？ 112

如何在 Linux 中找出哪些用户在一个组中？ 110

`sl` 会显示当前目录吗？ 107

“realpath”和“readlink -f”有什么区别 98