我有一个如下所示的出租车列表:
1204725
2162
1300163
420247
Run Code Online (Sandbox Code Playgroud)
我希望从上面的出租车中获取一个带有分类标准的文件:
kingdom_id phylum_id class_id order_id family_id genus_id species_id
Run Code Online (Sandbox Code Playgroud)
我正在使用" ete3 " 包.我使用工具ete-ncbiquery来告诉你上面的id的谱系.(我使用下面的命令从我的linux笔记本电脑上运行它)
ete3 ncbiquery --search 1204725 2162 13000163 420247 --info
Run Code Online (Sandbox Code Playgroud)
结果如下:
# Taxid Sci.Name Rank Named Lineage Taxid Lineage
2162 Methanobacterium formicicum species root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum 1,131567,2157,28890,183925,2158,2159,2160,2162
1204725 Methanobacterium formicicum DSM 3637 no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum,Methanobacterium formicicum DSM 3637 1,131567,2157,28890,183925,2158,2159,2160,2162,1204725
420247 Methanobrevibacter smithii ATCC 35061 no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobrevibacter,Methanobrevibacter smithii,Methanobrevibacter smithii ATCC 350611,131567,2157,28890,183925,2158,2159,2172,2173,420247
Run Code Online (Sandbox Code Playgroud)
我不知道哪些项目(IDS)对应于我要找的东西(如果有的话)
我想下载所有发布的数据摘要。有谁知道我如何轻松下载所有已发表的文章摘要?
我得到了数据的来源:ftp : //ftp.ncbi.nlm.nih.gov/pub/pmc/af/12/
反正有没有下载所有这些tar文件..
提前致谢。
我试图只从NCBI xml BLAST文件中提取第一个命中.接下来我想获得第一个HSP.在最后阶段,我想根据最高分获得这些.在这里清楚地说明xml文件的一个示例:
<?xml version="1.0"?>
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput>
<BlastOutput_program>blastx</BlastOutput_program>
<BlastOutput_version>blastx 2.2.22 [Sep-27-2009]</BlastOutput_version>
<BlastOutput_reference>~Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, ~Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), ~"Gapped BLAST and PSI-BLAST: a new generation of protein database search~programs", Nucleic Acids Res. 25:3389-3402.</BlastOutput_reference>
<BlastOutput_db>/Applications/blast/db/viral1.protein.faa</BlastOutput_db>
<BlastOutput_query-ID>lcl|1_0</BlastOutput_query-ID>
<BlastOutput_query-def>DSAD-090629_plate11A01a.g1 CHROMAT_FILE: DSAD-090629_plate11A01a.g1 PHD_FILE: DSAD-090629_plate11A01a.g1.phd.1 CHEM: term DYE: big TIME: Thu Sep 17 15:33:59 2009 TEMPLATE: DSAD-090629_plate11A01a DIRECTION: rev</BlastOutput_query-def>
<BlastOutput_query-len>1024</BlastOutput_query-len>
<BlastOutput_param>
<Parameters>
<Parameters_matrix>BLOSUM62</Parameters_matrix>
<Parameters_expect>1e-05</Parameters_expect>
<Parameters_gap-open>11</Parameters_gap-open>
<Parameters_gap-extend>1</Parameters_gap-extend> …
Run Code Online (Sandbox Code Playgroud) 根据 NCBI 帮助台回答的问题之一,我们不能“批量下载” PubMed Central。但是,我可以使用“NCBI E-utilities”使用Efetch下载PMC 数据库中的所有全文论文,或者至少使用Entrez Programming Utilities 中的Esearch找到所有相应的 PMCid吗?如果是,那么如何?如果无法使用E-utilities,有没有其他方法可以下载所有全文文章?
我试图找到具有基因名和染色体位置的gene_info文件.但是,我似乎无法在NCBI FTP站点上找到它.任何人都可以给我指针吗?
我可以手动下载FASTA文件,如下所示:
>lcl|CR543861.1_gene_1...
ATGCTTTGGACA...
>lcl|CR543861.1_gene_2...
GTGCGACTAAAA...
Run Code Online (Sandbox Code Playgroud)
通过单击"发送到"并选择"基因特征",FASTA核苷酸是唯一的选项(这很好,因为这就是我想要的)在此页面上.
使用这样的脚本:
#!/usr/bin/env perl
use strict;
use warnings;
use Bio::DB::EUtilities;
my $factory = Bio::DB::EUtilities->new(-eutil => 'efetch',
-db => 'nucleotide',
-id => 'CR543861',
-rettype => 'fasta');
my $file = 'CR543861.fasta';
$factory->get_Response(-file => $file);
Run Code Online (Sandbox Code Playgroud)
我得到一个看起来像这样的文件:
>gi|49529273|emb|CR543861.1| Acinetobacter sp. ADP1 complete genome
GATATTTTATCCACA...
Run Code Online (Sandbox Code Playgroud)
将整个基因组序列集中在一起.如何获取第一个(手动下载)文件中的信息?
我查看了其他一些帖子:
我尝试获取并保存GenBank文件(因为它似乎对我得到的.gb文件中的每个基因都有单独的序列),但是当我使用Bio :: SeqIO使用它时,我将只获得1个大序列.
当我尝试运行 Biopython 提供的用于 NCBIWWW.qblast 在线搜索的测试文件时,它只是一直挂着,从不响应。当我尝试自己运行任何包含 NCBIWWW.qblast 的脚本时,也会发生同样的情况:它刚刚到达此行并停止。不会发出任何错误消息,不会收到任何结果,并且该过程永远不会以任何方式结束。
产生问题的脚本之一是:
from Bio.Blast import NCBIWWW
result_handle=qblast('blastn', 'nt', 'AGAAAGGGTATATAAAATCAAGAATCTGGGGTGTTTGTGTTGACTTGTATAATTCTTGATTTTTTCAGGTAGTTGAAAAGGTGGGAGAAAAGTGGAGAAGCCTAAGCTGATATTGAAATTCATATGGATGGAAGAACATTGGTTTAGGATTGGATCAAAAAATAGGTGGACATGGAACTGTA')
Run Code Online (Sandbox Code Playgroud)
可能是什么问题?
我正在尝试从NCBI网站获取FASTA文件,我使用以下功能
getncbiseq <- function(accession){
dbs <- c()
for (i in 1:numdbs){
db <- dbs[i]
choosebank(db)
resquery <- try(query(".tmpquery", paste("AC=", accession)),silent = TRUE)
if (!(inherits(resquery, "try-error"))){
queryname <- "query2"
thequery <- paste("AC=",accession,sep="")
query(`queryname`,`thequery`)
# see if a sequence was retrieved:
seq <- getSequence(query2$req[[1]])
closebank()
return(seq)
}
closebank()
}
print(paste("ERROR: accession",accession,"was not found"))
}
Run Code Online (Sandbox Code Playgroud)
当我尝试检索序列时
mydata <- getncbiseq("NC_001477")
Run Code Online (Sandbox Code Playgroud)
getSequence(query2 $ req [[1]])中的错误:找不到对象'query2'
还有缩短这些循环功能的更好方法吗?
如果我用
query('queryname','the query')
#or
query("queryname","thequery")
Run Code Online (Sandbox Code Playgroud)
我收到另一个错误
query(“ queryname”,“ thequery”)中的错误:无效的请求:“(^)处的未知列表:\”(^)thequery \“”
I have a method to read a Newick file and return a String in Django framework which is the following:
def handle_uploaded_file(f):
output = " "
for chunk in f.chunks():
output += chunk.decode('ascii')
return output.replace("\n", "").replace("\r", "")
def post(self, request):
form = HomeForm(request.POST, request.FILES)
if form.is_valid():
input = handle_uploaded_file(request.FILES['file'])
treeGelezen = Tree(input, format=1)
script, div = mainmain(treeGelezen)
form = HomeForm()
args = {'form': form, 'script': script, 'div': div}
return render(request, self.template_name, args)
Run Code Online (Sandbox Code Playgroud)
对于普通的Newick文件,它的工作正常,但我也有一些文件,在文件的开头有一个字符串。我正在尝试使用另一种方法来检查文件之前是否具有以下字符串(某些文件就是这种情况):“ newick;” 并删除该字符串(如果找到)。它在本地工作,但我似乎无法合并它们。这是本地的样子:
def removeNewick(tree_with_newick):
for x in …
Run Code Online (Sandbox Code Playgroud) 我有一个带有蛋白质登录号的数据集 (DataGranulomeTidy)。我在 r 中编写了一个函数 (extractInfo) 来从 ncbi 网站上抓取这些蛋白质的一些信息。当我在一个简短的“for”循环中运行它时,该函数按预期工作。
DataGranulomeTidy <- tibble(GIaccessionNumber = c("29436380", "4504165", "17318569"))
extractInfo <- function(GInumber){
tempPage <- readLines(paste("https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id=", GInumber, "&db=protein&report=genpept&conwithfeat=on&withparts=on&show-cdd=on&retmode=html&withmarkup=on&tool=portal&log$=seqview&maxdownloadsize=1000000", sep = ""), skipNul = TRUE)
tempPage <- base::paste(tempPage, collapse = "")
Accession <- str_extract(tempPage, "(?<=ACCESSION).{3,20}(?=VERSION)")
Symbol <- str_extract(tempPage, "(?<=gene=\").{1,20}(?=\")")
GeneID <- str_extract(tempPage, "(?<=gov/gene/).{1,20}(?=\">)")
out <- paste(Symbol, Accession, GeneID, sep = "---")
return(out)
}
for(n in 1:3){
print(extractInfo(GInumber = DataGranulomeTidy$GIaccessionNumber[n]))
}
[1] "MYH9--- AAH49849---4627"
[1] "GSN--- NP_000168---2934"
[1] "KRT1--- NP_006112---3848"
Run Code Online (Sandbox Code Playgroud)
当我在 dplyr 管道中使用相同的功能时,我不起作用,我无法弄清楚为什么。
> DataGranulomeTidy …
Run Code Online (Sandbox Code Playgroud)