我有一个看起来像这个玩具示例的文件。我的实际文件有 400 万行,我需要删除其中大约 10 行。
ID Data1 Data2
1 100 100
2 100 200
3 200 100
ID Data1 Data2
4 100 100
ID Data1 Data2
5 200 200
Run Code Online (Sandbox Code Playgroud)
我想删除看起来像标题的行,除了第一行。
最终文件:
ID Data1 Data2
1 100 100
2 100 200
3 200 100
4 100 100
5 200 200
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到这一点?
我有一个很大的(~900MB)制表符分隔的文本文件,我将在下游程序中处理它。我需要删除任何缺少值的行。每行上的列数正确(因此缺失值将对应于 2 个选项卡)。
注意:我的实际数据有大约 200 万行和 80-300 列。可能的字符是 az AZ 0-9 -(连字符)_(下划线)和制表符(分隔符)。文件中没有空格或特殊字符。
我是这种脚本的新手,因此对提供的任何代码的解释将不胜感激。我通常使用 R,但我的文件大小已经超出了 R 的数据操作功能。
我如何在终端(或在 shell 脚本中)删除文件中缺少值的行(例如使用sed
)?
示例输入文件:
Col1 Col2 Col3
A B C
D F
G H I
J K
Run Code Online (Sandbox Code Playgroud)
示例输出文件:
Col1 Col2 Col3
A B C
G H I
Run Code Online (Sandbox Code Playgroud)