小编Ann*_*364的帖子

如何计算一行中的字符数,特定字符除外?

这是部分文件

N W N N N N N N N N N
N C N N N N N N N N N
N A N N N N N N N N N
N N N N N N N N N N N
N G N N N N N N N N N
N C N N N C N N N N N
N C C N N N N N N N N
Run Code Online (Sandbox Code Playgroud)

在每一行中,我想计算不是“N”的所有字符的总数

我的愿望输出 …

text-processing bioinformatics

9
推荐指数
6
解决办法
2929
查看次数

如何从命令行减小pdf文件的大小

我知道这个问题已在其他线程中得到回答,但没有一个解决方案对我有用。我有一个 pdf 文件,其中包含 4 个图,其中有数百万个彩色点(曼哈顿图)。PDF 文件太大(约 100 MB),我什至无法在计算机上正确打开它。我尝试过gs类似的命令

gs -sDEVICE=pdfwrite -dPDFSETTINGS=/ebook -q -o output.pdf manhattan_plots_long.pdf
Run Code Online (Sandbox Code Playgroud)

但它似乎不起作用,我收到一条错误消息,显示“无法将颜色空间转换为 sRGB,将策略恢复为 LeaveColorUnchanged”。

我可以找到另一个代码来修复此错误,但新的 PDF 文件具有相同的大小!

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH \
  -dAutoRotatePages=/None -dUseCIEColor -sOutputFile=output.pdf input.pdf
Run Code Online (Sandbox Code Playgroud)

我不明白出了什么问题。我的问题有什么解决办法吗?

compression pdf

7
推荐指数
1
解决办法
9241
查看次数

?如何根据第一列作为ID选择每组中具有最小值的行?

我有一个文件看起来像这样:

1   7.8e-12  
1   7.8e-12  
1   1.0e-11   
2   9.3e-13    
2   3.5e-12 
2   3.5e-10
2   3.1e-9         
3   3.0e-11    
3   3.0e-11     
3   1.7e-08   
Run Code Online (Sandbox Code Playgroud)

对于第一列中的每个值,我想选择在第二列中具有最小值的“所有行”并按第一列分组。所以所需的输出是:

 1   7.8e-12  
 1   7.8e-12
 2   9.3e-13
 3   3.0e-11    
 3   3.0e-11 
Run Code Online (Sandbox Code Playgroud)

知道如何做到这一点吗?

awk python perl text-processing

5
推荐指数
2
解决办法
2139
查看次数

如何将部分文件名粘贴到文件内容中?

我有一个包含 1000 个文件的文件夹;前面的所有字符均mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp指个人 ID(例如 NA21117、NA21119、NA21126 等)

NA21117.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21119.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21126.mapped.ILLUMINA.bwa.GIH.low_coverage.20121211.bam_dp
NA21127.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21137.mapped.ILLUMINA.bwa.GIH.low_coverage.20120522.bam_dp
NA21142.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21143.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
Run Code Online (Sandbox Code Playgroud)

每个文件只有一行:

cat NA21143.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
1   115258827   10
Run Code Online (Sandbox Code Playgroud)

对于这些文件中的每一个,我想将个人 ID 粘贴到文件的内容中,并得到如下输出:

1   115258827   10 NA21143
Run Code Online (Sandbox Code Playgroud)

有没有办法做到这一点?

text-processing

5
推荐指数
1
解决办法
683
查看次数

提取两个逗号之间的字符?

我有一个大约有 300 万行的文件,这是我文件的前几行:

head out.txt
    NA
    NA
    NA
    NA
    NA
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753,gene85754
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752,gene85753
    gene85752
    gene85752
Run Code Online (Sandbox Code Playgroud)

对于那些由“,”分隔的行,我想保留第一个逗号之后和第二个逗号之前的所有内容。这是我想要的输出:

outgood.txt
NA
NA
NA
NA
NA
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85752
gene85752
Run Code Online (Sandbox Code Playgroud)

awk text-processing

4
推荐指数
1
解决办法
1292
查看次数

将列转换为行

我有文件

head file1
12 0 
9 3 
12 0 
12 0 
12 0 
12 0 
7 5 
Run Code Online (Sandbox Code Playgroud)

我想将第二列转换为行

head desired

12
0
9
3
12
0
12
0
12
0
7
5
Run Code Online (Sandbox Code Playgroud)

谢谢

text-processing

1
推荐指数
1
解决办法
7596
查看次数

根据某些标准过滤行

我有一些.vcf文件,我想过滤掉一些变体。这只是我文件的一小部分:文件开头有一些标题行(以 ## 开头),然后是变体(每个变体一行)。

##fileformat=VCFv4.2
##source=combiSV-v2.2
##fileDate=Mon May  8 11:32:53 2023
##contig=<ID=chrM,length=16571>
##contig=<ID=chr1,length=249250621>    
##INFO=<ID=END,Number=1,Type=Integer,Description="End position of the variant described in this record">
##INFO=<ID=SVCALLERS,Number=.,Type=String,Description="SV callers that support this SV">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DR,Number=1,Type=Integer,Description="# High-quality reference reads">
##FORMAT=<ID=DV,Number=1,Type=Integer,Description="# High-quality variant reads">
#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  Sample
1   10862   id.1    N   <INS>   .   PASS    SVTYPE=INS;SVLEN=101;END=10862;SVCALLERS=cutesv,SVIM    GT:DR:DV    1/1:0:26
1   90258   id.2    N   <INS>   .   PASS    SVTYPE=INS;SVLEN=118;END=90258;SVCALLERS=SVIM,NanoSV    GT:DR:DV    1/1:0:9
1   90259   id.3    N   <INS>   .   PASS    SVTYPE=INS;SVLEN=36;END=90259;SVCALLERS=Sniffles    GT:DR:DV    0/1:44:7
1   185824 …
Run Code Online (Sandbox Code Playgroud)

command-line text-processing bioinformatics

1
推荐指数
1
解决办法
82
查看次数

将第一列保存到名称由第二列给出的文件

我有一个有 315 行和 2 列的文件。第一列是个体,第二列是群体 ID,如下所示:

HT170_SD2W-14   HA_16
Q093_MK7-13 HA_25
Q87_MK3-2   HA_21
HT225_KS2A-23R  HA_7
HT256_KS2A-4    HA_7
HT216_SD2A-32   HA_15
ED19_SD1A40-3_357   HA_13
Run Code Online (Sandbox Code Playgroud)

我想提取属于每个种群的个体,并将它们为每个种群保存在一个单独的文件中,以获得 HA_7 的类似内容:

HT225_KS2A-23R
HT256_KS2A-4
Run Code Online (Sandbox Code Playgroud)

我怎样才能做到这一点?

grep sed text-processing

0
推荐指数
1
解决办法
185
查看次数

如何保留n位小数?

我有一个包含 40,000 行的文件

head flower_all

    0.992957746478873 0.00704225352112677
    0.646410833917366 0.353589166082634
    0.992957746478873 0.00704225352112677
    0.992957746478873 0.00704225352112677
    0.992957746478873 0.00704225352112677
    0.992957746478873 0.00704225352112677
    0.992957746478873 0.00704225352112677
    0.992957746478873 0.00704225352112677
    0.5 0.5
Run Code Online (Sandbox Code Playgroud)

我只想保留 3 位有效数字。我想要的输出:

0.992 0.007
0.646 0.353
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.5 0.5
Run Code Online (Sandbox Code Playgroud)

我该怎么做?

text-processing numeric-data text-formatting

0
推荐指数
1
解决办法
6837
查看次数

如果基于第一列有一定数量的观察,如何保留行?

我有一个类似于下面示例的文件。第一列是 SNP id。

head data
2L:647803 1 2 44.31655 -12.2373
2L:647803 1 2 43.63717 -12.302
2L:647803 1 2 43.80007 -12.3451
2L:2602906 1 2 43.39748 -11.4894
2L:2602906 1 2 44.43951 -12.3093
2L:2602906 1 2 43.80007 -12.3451
2L:3146785 1 2 44.31655 -12.2373
2L:3146785 1 2 44.43951 -12.3093
2L:3146785 1 2 43.80007 -12.3451
2L:3771395 1 2 43.39748 -11.4894
2L:3771395 1 2 43.2661 -11.6803
2L:3945568 1 2 43.63717 -12.302
2L:3945568 1 2 43.39032 -11.6099
Run Code Online (Sandbox Code Playgroud)

对于每个 SNP ( 2L:647803, 2L:2602906, 2L:3146785, ...),我想要 …

text-processing

-1
推荐指数
1
解决办法
75
查看次数