将大文件拆分为具有唯一文件名的新文件

Question

将大文件拆分为具有唯一文件名的新文件

kap*_*001 5 grep sed awk text-processing split

我需要将文件拆分为唯一的文件名。
我可以用sed命令来完成，例如， sed -n '/scaffold135_/w 135-scaf.txt' input file.txt但它很耗时，所以我需要一种聪明的方法来更快地完成它。下面是一个输入示例（原始文件有一百万行）：

scaffold1_115,T,N,N,N,N,A,N,N,N,N,N,N,T,N,T,T,N,A,A,N,N,A
scaffold1_123,A,N,N,N,N,G,N,N,N,N,N,N,A,N,A,A,N,G,G,N,N,G
scaffold1_140,C,N,N,N,N,C,N,N,N,N,N,N,C,N,C,C,N,T,C,N,N,C
scaffold2_161,G,N,N,N,N,G,N,C,N,N,C,N,G,N,G,G,N,G,G,C,N,G
scaffold2_162,C,N,N,N,N,C,N,T,N,N,T,N,C,N,C,C,N,C,C,T,N,C
scaffold2_180,C,N,N,N,N,C,N,T,N,N,C,C,C,T,C,C,T,C,C,C,N,C
scaffold2_194,C,N,N,C,N,C,C,C,C,C,C,C,C,C,T,C,C,C,C,C,N,C
scaffold3_195,G,N,N,G,G,C,G,G,G,G,G,G,C,G,C,G,G,C,C,G,N,C
scaffold3_234,T,N,A,T,A,A,T,T,T,A,T,A,A,T,A,A,T,A,A,T,N,A
scaffold101_282,C,T,T,T,C,C,T,C,T,C,C,C,C,T,C,C,T,C,C,C,N,C
scaffold101_371,T,T,T,T,T,C,T,T,T,T,T,T,T,T,T,T,T,T,T,T,N,C
scaffold101_372,T,T,T,T,C,C,T,T,T,T,T,T,T,T,T,T,T,T,T,T,N,C

Run Code Online (Sandbox Code Playgroud)

线条很独特。我希望特定于每个行的行scafold放入一个单独的文件中，说所有scaffold1_以命名的文件开头的行，scaffold1.txt依此类推，直到scaffold10156.txt包含以开头的行scaffold10156_

Answer 1

iru*_*var 7

您应该能够使用重定向与awk

awk -F'_' '{print > $1".txt"}' file

Run Code Online (Sandbox Code Playgroud)

如果共享scaffoldn_前缀的行是连续的，您可以执行以下操作以避免违反打开文件句柄限制

awk -F'_' 'NR == 1 || $1 != prev{if (f) close(f);f=$1".txt"; prev=$1}; 
{print > f};END{if (f) close(f)}' file

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，2 月前
查看次数：	504 次
最近记录：	9 年，9 月前