这是部分文件
N W N N N N N N N N N
N C N N N N N N N N N
N A N N N N N N N N N
N N N N N N N N N N N
N G N N N N N N N N N
N C N N N C N N N N N
N C C N N N N N N N N
Run Code Online (Sandbox Code Playgroud)
在每一行中,我想计算不是“N”的所有字符的总数
我的愿望输出 …
我知道这个问题已在其他线程中得到回答,但没有一个解决方案对我有用。我有一个 pdf 文件,其中包含 4 个图,其中有数百万个彩色点(曼哈顿图)。PDF 文件太大(约 100 MB),我什至无法在计算机上正确打开它。我尝试过gs类似的命令
gs -sDEVICE=pdfwrite -dPDFSETTINGS=/ebook -q -o output.pdf manhattan_plots_long.pdf
Run Code Online (Sandbox Code Playgroud)
但它似乎不起作用,我收到一条错误消息,显示“无法将颜色空间转换为 sRGB,将策略恢复为 LeaveColorUnchanged”。
我可以找到另一个代码来修复此错误,但新的 PDF 文件具有相同的大小!
gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH \
-dAutoRotatePages=/None -dUseCIEColor -sOutputFile=output.pdf input.pdf
Run Code Online (Sandbox Code Playgroud)
我不明白出了什么问题。我的问题有什么解决办法吗?
我有一个文件看起来像这样:
1 7.8e-12
1 7.8e-12
1 1.0e-11
2 9.3e-13
2 3.5e-12
2 3.5e-10
2 3.1e-9
3 3.0e-11
3 3.0e-11
3 1.7e-08
Run Code Online (Sandbox Code Playgroud)
对于第一列中的每个值,我想选择在第二列中具有最小值的“所有行”并按第一列分组。所以所需的输出是:
1 7.8e-12
1 7.8e-12
2 9.3e-13
3 3.0e-11
3 3.0e-11
Run Code Online (Sandbox Code Playgroud)
知道如何做到这一点吗?
我有一个包含 1000 个文件的文件夹;前面的所有字符均mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp指个人 ID(例如 NA21117、NA21119、NA21126 等)
NA21117.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21119.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21126.mapped.ILLUMINA.bwa.GIH.low_coverage.20121211.bam_dp
NA21127.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21137.mapped.ILLUMINA.bwa.GIH.low_coverage.20120522.bam_dp
NA21142.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
NA21143.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
Run Code Online (Sandbox Code Playgroud)
每个文件只有一行:
cat NA21143.mapped.ILLUMINA.bwa.GIH.low_coverage.20130415.bam_dp
1 115258827 10
Run Code Online (Sandbox Code Playgroud)
对于这些文件中的每一个,我想将个人 ID 粘贴到文件的内容中,并得到如下输出:
1 115258827 10 NA21143
Run Code Online (Sandbox Code Playgroud)
有没有办法做到这一点?
我有一个大约有 300 万行的文件,这是我文件的前几行:
head out.txt
NA
NA
NA
NA
NA
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753,gene85754
gene85752,gene85753,gene85754
gene85752,gene85753,gene85754
gene85752,gene85753,gene85754
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752,gene85753
gene85752
gene85752
Run Code Online (Sandbox Code Playgroud)
对于那些由“,”分隔的行,我想保留第一个逗号之后和第二个逗号之前的所有内容。这是我想要的输出:
outgood.txt
NA
NA
NA
NA
NA
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85753
gene85752
gene85752
Run Code Online (Sandbox Code Playgroud) 我有文件
head file1
12 0
9 3
12 0
12 0
12 0
12 0
7 5
Run Code Online (Sandbox Code Playgroud)
我想将第二列转换为行
head desired
12
0
9
3
12
0
12
0
12
0
7
5
Run Code Online (Sandbox Code Playgroud)
谢谢
我有一些.vcf文件,我想过滤掉一些变体。这只是我文件的一小部分:文件开头有一些标题行(以 ## 开头),然后是变体(每个变体一行)。
##fileformat=VCFv4.2
##source=combiSV-v2.2
##fileDate=Mon May 8 11:32:53 2023
##contig=<ID=chrM,length=16571>
##contig=<ID=chr1,length=249250621>
##INFO=<ID=END,Number=1,Type=Integer,Description="End position of the variant described in this record">
##INFO=<ID=SVCALLERS,Number=.,Type=String,Description="SV callers that support this SV">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=DR,Number=1,Type=Integer,Description="# High-quality reference reads">
##FORMAT=<ID=DV,Number=1,Type=Integer,Description="# High-quality variant reads">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample
1 10862 id.1 N <INS> . PASS SVTYPE=INS;SVLEN=101;END=10862;SVCALLERS=cutesv,SVIM GT:DR:DV 1/1:0:26
1 90258 id.2 N <INS> . PASS SVTYPE=INS;SVLEN=118;END=90258;SVCALLERS=SVIM,NanoSV GT:DR:DV 1/1:0:9
1 90259 id.3 N <INS> . PASS SVTYPE=INS;SVLEN=36;END=90259;SVCALLERS=Sniffles GT:DR:DV 0/1:44:7
1 185824 …Run Code Online (Sandbox Code Playgroud) 我有一个有 315 行和 2 列的文件。第一列是个体,第二列是群体 ID,如下所示:
HT170_SD2W-14 HA_16
Q093_MK7-13 HA_25
Q87_MK3-2 HA_21
HT225_KS2A-23R HA_7
HT256_KS2A-4 HA_7
HT216_SD2A-32 HA_15
ED19_SD1A40-3_357 HA_13
Run Code Online (Sandbox Code Playgroud)
我想提取属于每个种群的个体,并将它们为每个种群保存在一个单独的文件中,以获得 HA_7 的类似内容:
HT225_KS2A-23R
HT256_KS2A-4
Run Code Online (Sandbox Code Playgroud)
我怎样才能做到这一点?
我有一个包含 40,000 行的文件
head flower_all
0.992957746478873 0.00704225352112677
0.646410833917366 0.353589166082634
0.992957746478873 0.00704225352112677
0.992957746478873 0.00704225352112677
0.992957746478873 0.00704225352112677
0.992957746478873 0.00704225352112677
0.992957746478873 0.00704225352112677
0.992957746478873 0.00704225352112677
0.5 0.5
Run Code Online (Sandbox Code Playgroud)
我只想保留 3 位有效数字。我想要的输出:
0.992 0.007
0.646 0.353
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.992 0.007
0.5 0.5
Run Code Online (Sandbox Code Playgroud)
我该怎么做?
我有一个类似于下面示例的文件。第一列是 SNP id。
head data
2L:647803 1 2 44.31655 -12.2373
2L:647803 1 2 43.63717 -12.302
2L:647803 1 2 43.80007 -12.3451
2L:2602906 1 2 43.39748 -11.4894
2L:2602906 1 2 44.43951 -12.3093
2L:2602906 1 2 43.80007 -12.3451
2L:3146785 1 2 44.31655 -12.2373
2L:3146785 1 2 44.43951 -12.3093
2L:3146785 1 2 43.80007 -12.3451
2L:3771395 1 2 43.39748 -11.4894
2L:3771395 1 2 43.2661 -11.6803
2L:3945568 1 2 43.63717 -12.302
2L:3945568 1 2 43.39032 -11.6099
Run Code Online (Sandbox Code Playgroud)
对于每个 SNP ( 2L:647803, 2L:2602906, 2L:3146785, ...),我想要 …