使用Awk处理每个记录具有不同固定宽度字段的文件

Question

使用Awk处理每个记录具有不同固定宽度字段的文件

Dan*_*yer 3 unix linux awk text-processing gawk

我有遗留系统的一些数据文件,我想用Awk处理.每个文件都包含一个记录列表.有几种不同的记录类型,每种记录类型都有一组不同的固定宽度字段(没有字段分隔符).记录的前两个字符表示类型,然后您可以知道应该遵循哪些字段.文件可能如下所示:

AAField1Field2LongerField3
BBField4Field5Field6VeryVeryLongField7Field8
CCField99

Run Code Online (Sandbox Code Playgroud)

使用Gawk我可以设置FIELDWIDTHS,但这适用于整个文件(除非我在某个记录的基础上缺少某种方式设置它),或者我可以将FS设置为""并处理文件中的一个字符一段时间,但这有点麻烦.

有没有一种使用Awk从这样的文件中提取字段的好方法？

编辑:是的,我可以使用Perl(或其他).我仍然很想知道是否有一种合理的方法可以用Awk做到这一点.

Answer 1

小智 8

希望这会引导您朝着正确的方向前进.假设您的多行记录保证由"CC"类型行终止,您可以使用简单的if-then逻辑预处理文本文件.我假设您需要在一行上使用fields1,5和7,并且需要一个示例awk脚本.

BEGIN {
        field1=""
        field5=""
        field7=""
}
{
    record_type = substr($0,1,2)
    if (record_type == "AA")
    {
        field1=substr($0,3,6)
    }
    else if (record_type == "BB")
    {
        field5=substr($0,9,6)
        field7=substr($0,21,18)
    }
    else if (record_type == "CC")
    {
        print field1"|"field5"|"field7
    }
}

Run Code Online (Sandbox Code Playgroud)

创建一个名为program.awk的awk脚本文件,并将该代码弹入其中.使用以下命令执行脚本:

awk -f program.awk < my_multi_line_file.txt

Run Code Online (Sandbox Code Playgroud)

您可以使用类似于Jonathan Leffler的答案进行匹配.然后进行子串提取. (2认同)

Answer 2

Ale*_*kov 5

你可以使用两个通行证:

1step.awk

/^AA/{printf "2 6 6 12"    }
/^BB/{printf "2 6 6 6 18 6"}
/^CC/{printf "2 8"         }
{printf "\n%s\n", $0}

Run Code Online (Sandbox Code Playgroud)

2step.awk

NR%2 == 1 {FIELDWIDTHS=$0}
NR%2 == 0 {print $2}

Run Code Online (Sandbox Code Playgroud)

然后

awk -f 1step.awk sample  | awk -f 2step.awk

Run Code Online (Sandbox Code Playgroud)

归档时间：	16 年，6 月前
查看次数：	3412 次
最近记录：	12 年，11 月前