Kam*_*Sen 1 python-3.x snakemake
我刚刚开始使用snakemake并且想知道在同一个文件上运行一组参数的"正确"方法是什么以及这对于规则的链接有什么作用?
因此,例如,当我想要多个规范化方法时,接下来让我们说一个具有不同数量的k个聚类的聚类规则.这样做的最佳方法是什么,以便运行所有组合?
我开始这样做:
INFILES = ["mytable"]
rule preprocess:
input:
bam=expand("data/{sample}.csv", sample=INFILES, param=config["normmethod"])
output:
bamo=expand("results/{sample}_pp_{param}.csv", sample=INFILES, param=config["normmethod"])
script:
"scripts/preprocess.py"
Run Code Online (Sandbox Code Playgroud)
然后通过以下方式调用脚本:
snakemake --config normmethod =中位数
但是,在工作流程的后期,这并没有真正扩展到更多选项.例如,我如何自动合并这些选项?
normmethods= ["Median", "Quantile"]
kclusters= [1,3,5,7,10]
Run Code Online (Sandbox Code Playgroud)
你在规则中使用expand()函数做得很好.
对于参数,我建议使用包含所有参数的配置文件.Snakemake适用于YAML和JSON文件.在这里,您可以获得有关这两种格式的所有信息:
在你的情况下,你只需要在YAML文件中写这个:
INFILES : "mytables"
normmethods : ["Median", "Quantile"]
or
normmethods : - "Median"
- "Quantile"
kclusters : [1,3,5,7,10]
or
kclusters : - 1
- 3
- 5
- 7
- 10
Run Code Online (Sandbox Code Playgroud)
像这样写下你的规则:
rule preprocess:
input:
bam = expand("data/{sample}.csv",
sample = config["INFILES"])
params :
kcluster = config["kcluster"]
output:
bamo = expand("results/{sample}_pp_{method}_{cluster}.csv",
sample = config["INFILES"],
method = config["normmethod"],
cluster = config["kcluster"])
script:
"scripts/preprocess.py {input.bam} {params.kcluster}"
Run Code Online (Sandbox Code Playgroud)
那你只需要像这样吃午饭:
snakemake --configfile path/to/config.yml
Run Code Online (Sandbox Code Playgroud)
对于与其他参数一起运行,您将不得不修改配置文件,而不是修改snakefile(减少错误),这对于可读性和代码美感更好.
编辑:
rule preprocess:
input:
bam = "data/{sample}.csv"
Run Code Online (Sandbox Code Playgroud)
只是为了纠正我自己的错误,你不需要在输入上使用expand,因为你只想运行规则一个文件.csv一个.所以只要把通配符放在这里,Snakemake就会尽力而为.
好像你没有将params传递给你的脚本.怎么样以下的东西?
import re
import os
import glob
normmethods= ["Median", "Quantile"] # can be set from config['normmethods']
kclusters= [1,3,5,7,10] # can be set from config['kclusters']
INFILES = ['results/' + re.sub('\.csv$', '_pp_' + m + '-' + str(k) + '.csv', re.sub('data/', '', file)) for file in glob.glob("data/*.csv") for m in normmethods for k in kclusters]
rule cluster:
input: INFILES
rule preprocess:
input:
bam="data/{sample}.csv"
output:
bamo="results/{sample}_pp_{m}-{k}.csv"
run:
os.system("scripts/preprocess.py %s %s %s %s" % (input.bame, output.bamo, wildcards.m, wildcards.k))
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1889 次 |
| 最近记录: |