Abh*_*ine 1 unix awk sed textedit
我有一个巨大的平面文件 100K 记录,每个记录跨越 3000 列。我需要在归档之前删除一段数据fay起始位置300到位置500。这是数据的敏感部分,在我可以存档之前需要擦除。我正在寻找一个 awk 或 sed 或任何类似的命令,可以为我做的伎俩。
示例文件
003133780 MORNING GLORY DR SOUTHAMPTON PA18966780 MORNING GLORY DR
0054381303 MADISON ST RADFORD VA241411303 MADISON ST
00586728 CONESTOGA COURT CHADDS FORD PA1931728 CONESTOGA COURT
1852921800 SAMER RD MILAN MI481601800 SAMER RD
192717175 EVERGREEN CIRCLE HENDERSONVILLE TN37075175 EVERGREEN CIRCLE
213673217 EAST BRANCH LONGVIEW TX75604217 EAST BRANCH
2490423205 NOTTAGE LANE FALLS CHURCH VA220423205 NOTTAGE LANE
249357344 BALOGH PLACE LONGWOOD FL32750344 BALOGH PLACE
2502811224 WILFORD HOLLOW ROAD VINTON VA241791224 WILFORD HOLLOW ROAD
277634210 AMANDA CT WHITEHOUSE TX7579119726 COPPER OAKS DRIVE
282482507 B ST. CHESAPEAKE VA23324507 B ST.
Run Code Online (Sandbox Code Playgroud)
预期输出
003133780 MORNING GLORY DR SOUTHAMPTON PA780 MORNING GLORY DR
0054381303 MADISON ST RADFORD VA1303 MADISON ST
00586728 CONESTOGA COURT CHADDS FORD PA28 CONESTOGA COURT
1852921800 SAMER RD MILAN MI1800 SAMER RD
192717175 EVERGREEN CIRCLE HENDERSONVILLE TN175 EVERGREEN CIRCLE
213673217 EAST BRANCH LONGVIEW TX217 EAST BRANCH
2490423205 NOTTAGE LANE FALLS CHURCH VA3205 NOTTAGE LANE
249357344 BALOGH PLACE LONGWOOD FL344 BALOGH PLACE
2502811224 WILFORD HOLLOW ROAD VINTON VA1224 WILFORD HOLLOW ROAD
277634210 AMANDA CT WHITEHOUSE TX19726 COPPER OAKS DRIVE
282482507 B ST. CHESAPEAKE VA507 B ST.
Run Code Online (Sandbox Code Playgroud)
这里我去掉了位置 89 和 95 之间的字符。一个小的变化,我还需要将更改的内容写入同一个文件。
下面是我到目前为止的脚本。我正在遍历所有文件,将它们分成最大行数为 20000 的文件,然后在存档之前从位置 X 和 Y 中删除字符。
for currentfilename in ls -1 *.[tT][xX][tT]
do echo $currentfilename tempfilename=${currentfilename%%.*} awk -v A="$tempfilename" '{filename = A " Part " int((NR-1)/20000) ".txt"; 打印 >> 文件名}' $currentfilename awk '{print substr($0,1,522) substr($0,953) >> 文件名}' $currentfilename mv $currentfilename $APP_ROOT/存档完成
假设位置意味着列,您可以使用cut来选择您想要的列。
cut -f 1-299,501-3000 CutMe.txt
Run Code Online (Sandbox Code Playgroud)
如果您的数据由逗号而不是制表符分隔,则使用-d.
cut -d, -f 1-299,501-3000 CutMe.txt
Run Code Online (Sandbox Code Playgroud)
如果位置意味着字符,您可以使用cut -c.
cut -c 1-299,501-3000 CutMe.txt
Run Code Online (Sandbox Code Playgroud)