标签: ncbi

如何从出租车获得王国,门,类,秩序,家庭,属和物种的分类学特定ID?

我有一个如下所示的出租车列表:

1204725
2162
1300163
420247
Run Code Online (Sandbox Code Playgroud)

我希望从上面的出租车中获取一个带有分类标准的文件:

kingdom_id      phylum_id       class_id        order_id        family_id       genus_id        species_id   
Run Code Online (Sandbox Code Playgroud)

我正在使用" ete3 " 包.我使用工具ete-ncbiquery来告诉你上面的id的谱系.(我使用下面的命令从我的linux笔记本电脑上运行它)

ete3 ncbiquery --search 1204725 2162 13000163 420247 --info 
Run Code Online (Sandbox Code Playgroud)

结果如下:

# Taxid Sci.Name    Rank    Named Lineage   Taxid Lineage
2162    Methanobacterium formicicum species root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum   1,131567,2157,28890,183925,2158,2159,2160,2162
1204725 Methanobacterium formicicum DSM 3637    no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum,Methanobacterium formicicum DSM 3637  1,131567,2157,28890,183925,2158,2159,2160,2162,1204725
420247  Methanobrevibacter smithii ATCC 35061   no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobrevibacter,Methanobrevibacter smithii,Methanobrevibacter smithii ATCC 350611,131567,2157,28890,183925,2158,2159,2172,2173,420247
Run Code Online (Sandbox Code Playgroud)

我不知道哪些项目(IDS)对应于我要找的东西(如果有的话)

bioinformatics taxonomy ncbi phylogeny etetoolkit

8
推荐指数
1
解决办法
2107
查看次数

如何从 pubmed data ncbi 下载所有抽象数据

我想下载所有发布的数据摘要。有谁知道我如何轻松下载所有已发表的文章摘要?

我得到了数据的来源:ftp : //ftp.ncbi.nlm.nih.gov/pub/pmc/af/12/

反正有没有下载所有这些tar文件..

提前致谢。

ncbi pubmed

7
推荐指数
1
解决办法
6423
查看次数

如何从XML NCBI BLAST文件中提取第一个命中元素?

我试图只从NCBI xml BLAST文件中提取第一个命中.接下来我想获得第一个HSP.在最后阶段,我想根据最高分获得这些.在这里清楚地说明xml文件的一个示例:

<?xml version="1.0"?>
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput>
  <BlastOutput_program>blastx</BlastOutput_program>
  <BlastOutput_version>blastx 2.2.22 [Sep-27-2009]</BlastOutput_version>
  <BlastOutput_reference>~Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, ~Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), ~&quot;Gapped BLAST and PSI-BLAST: a new generation of protein database search~programs&quot;,  Nucleic Acids Res. 25:3389-3402.</BlastOutput_reference>
  <BlastOutput_db>/Applications/blast/db/viral1.protein.faa</BlastOutput_db>
  <BlastOutput_query-ID>lcl|1_0</BlastOutput_query-ID>
  <BlastOutput_query-def>DSAD-090629_plate11A01a.g1 CHROMAT_FILE: DSAD-090629_plate11A01a.g1 PHD_FILE: DSAD-090629_plate11A01a.g1.phd.1 CHEM: term DYE: big TIME: Thu Sep 17 15:33:59 2009 TEMPLATE: DSAD-090629_plate11A01a DIRECTION: rev</BlastOutput_query-def>
  <BlastOutput_query-len>1024</BlastOutput_query-len>
  <BlastOutput_param>
    <Parameters>
      <Parameters_matrix>BLOSUM62</Parameters_matrix>
      <Parameters_expect>1e-05</Parameters_expect>
      <Parameters_gap-open>11</Parameters_gap-open>
      <Parameters_gap-extend>1</Parameters_gap-extend> …
Run Code Online (Sandbox Code Playgroud)

python xml bioinformatics elementtree ncbi

6
推荐指数
2
解决办法
7008
查看次数

下载 PMC 和 PubMed 数据库中的所有全文文章

根据 NCBI 帮助台回答的问题之一,我们不能“批量下载” PubMed Central。但是,我可以使用“NCBI E-utilities”使用Efetch下载PMC 数据库中的所有全文论文,或者至少使用Entrez Programming Utilities 中的Esearch找到所有相应的 PMCid吗?如果是,那么如何?如果无法使用E-utilities,有没有其他方法可以下载所有全文文章?

api download ncbi pubmed

6
推荐指数
1
解决办法
1875
查看次数

NCBI基因数据库问题

我试图找到具有基因名和染色体位置的gene_info文件.但是,我似乎无法在NCBI FTP站点上找到它.任何人都可以给我指针吗?

bioinformatics ncbi

5
推荐指数
1
解决办法
533
查看次数

如何使用Perl从NCBI获得FASTA核苷酸形式的基因特征?

我可以手动下载FASTA文件,如下所示:

>lcl|CR543861.1_gene_1...
ATGCTTTGGACA...
>lcl|CR543861.1_gene_2...
GTGCGACTAAAA...
Run Code Online (Sandbox Code Playgroud)

通过单击"发送到"并选择"基因特征",FASTA核苷酸是唯一的选项(这很好,因为这就是我想要的)在此页面上.

使用这样的脚本:

#!/usr/bin/env perl
use strict;
use warnings;
use Bio::DB::EUtilities;

my $factory = Bio::DB::EUtilities->new(-eutil   => 'efetch',
                                       -db      => 'nucleotide',
                                       -id      => 'CR543861',
                                       -rettype => 'fasta');
my $file = 'CR543861.fasta';
$factory->get_Response(-file => $file);
Run Code Online (Sandbox Code Playgroud)

我得到一个看起来像这样的文件:

>gi|49529273|emb|CR543861.1| Acinetobacter sp. ADP1 complete genome
GATATTTTATCCACA...
Run Code Online (Sandbox Code Playgroud)

将整个基因组序列集中在一起.如何获取第一个(手动下载)文件中的信息?

我查看了其他一些帖子:

以及来自EUtilities Cookbook的这一部分.

我尝试获取并保存GenBank文件(因为它似乎对我得到的.gb文件中的每个基因都有单独的序列),但是当我使用Bio :: SeqIO使用它时,我将只获得1个大序列.

database perl fasta bioperl ncbi

5
推荐指数
1
解决办法
1058
查看次数

Biopython NCBIWWW.qblast 测试文件 - 挂起

当我尝试运行 Biopython 提供的用于 NCBIWWW.qblast 在线搜索的测试文件时,它只是一直挂着,从不响应。当我尝试自己运行任何包含 NCBIWWW.qblast 的脚本时,也会发生同样的情况:它刚刚到达此行并停止。不会发出任何错误消息,不会收到任何结果,并且该过程永远不会以任何方式结束。

产生问题的脚本之一是:

from Bio.Blast import NCBIWWW
result_handle=qblast('blastn', 'nt', 'AGAAAGGGTATATAAAATCAAGAATCTGGGGTGTTTGTGTTGACTTGTATAATTCTTGATTTTTTCAGGTAGTTGAAAAGGTGGGAGAAAAGTGGAGAAGCCTAAGCTGATATTGAAATTCATATGGATGGAAGAACATTGGTTTAGGATTGGATCAAAAAATAGGTGGACATGGAACTGTA')
Run Code Online (Sandbox Code Playgroud)

可能是什么问题?

biopython blast python-3.x ncbi

5
推荐指数
1
解决办法
1049
查看次数

从数据库检索数据的功能出错

我正在尝试从NCBI网站获取FASTA文件,我使用以下功能

getncbiseq <- function(accession){
  dbs <- c()
  for (i in 1:numdbs){
    db <- dbs[i]
    choosebank(db)
    resquery <- try(query(".tmpquery", paste("AC=", accession)),silent = TRUE)
    if (!(inherits(resquery, "try-error"))){
      queryname <- "query2"
      thequery <- paste("AC=",accession,sep="")
      query(`queryname`,`thequery`)
      # see if a sequence was retrieved:
      seq <- getSequence(query2$req[[1]])
      closebank()
      return(seq)
    }
    closebank()
  }
  print(paste("ERROR: accession",accession,"was not found"))
}    
Run Code Online (Sandbox Code Playgroud)

当我尝试检索序列时

mydata <- getncbiseq("NC_001477")
Run Code Online (Sandbox Code Playgroud)

getSequence(query2 $ req [[1]])中的错误:找不到对象'query2'

还有缩短这些循环功能的更好方法吗?

如果我用

query('queryname','the query')
#or 
query("queryname","thequery")
Run Code Online (Sandbox Code Playgroud)

我收到另一个错误

query(“ queryname”,“ thequery”)中的错误:无效的请求:“(^)处的未知列表:\”(^)thequery \“”

r bioinformatics ncbi

5
推荐指数
1
解决办法
976
查看次数

expected str, bytes or os.PathLike object, not InMemoryUploadedFile

I have a method to read a Newick file and return a String in Django framework which is the following:

def handle_uploaded_file(f):
    output = " "
    for chunk in f.chunks():
        output += chunk.decode('ascii')
    return output.replace("\n", "").replace("\r", "")


def post(self, request):
    form = HomeForm(request.POST, request.FILES)
    if form.is_valid():
        input = handle_uploaded_file(request.FILES['file'])
        treeGelezen = Tree(input, format=1)
        script, div = mainmain(treeGelezen)
        form = HomeForm()
    args = {'form': form, 'script': script, 'div': div}
    return render(request, self.template_name, args)
Run Code Online (Sandbox Code Playgroud)

对于普通的Newick文件,它的工作正常,但我也有一些文件,在文件的开头有一个字符串。我正在尝试使用另一种方法来检查文件之前是否具有以下字符串(某些文件就是这种情况):“ newick;” 并删除该字符串(如果找到)。它在本地工作,但我似乎无法合并它们。这是本地的样子:

def removeNewick(tree_with_newick):
    for x in …
Run Code Online (Sandbox Code Playgroud)

python django ncbi ete3

5
推荐指数
1
解决办法
3489
查看次数

用户定义的函数在 dplyr 管道中不起作用

我有一个带有蛋白质登录号的数据集 (DataGranulomeTidy)。我在 r 中编写了一个函数 (extractInfo) 来从 ncbi 网站上抓取这些蛋白质的一些信息。当我在一个简短的“for”循环中运行它时,该函数按预期工作。

DataGranulomeTidy <- tibble(GIaccessionNumber = c("29436380", "4504165", "17318569"))

extractInfo <- function(GInumber){
    tempPage <- readLines(paste("https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id=", GInumber, "&db=protein&report=genpept&conwithfeat=on&withparts=on&show-cdd=on&retmode=html&withmarkup=on&tool=portal&log$=seqview&maxdownloadsize=1000000", sep = ""), skipNul = TRUE)
    tempPage  <- base::paste(tempPage, collapse = "")
    Accession <- str_extract(tempPage, "(?<=ACCESSION).{3,20}(?=VERSION)")
    Symbol    <- str_extract(tempPage, "(?<=gene=\").{1,20}(?=\")")
    GeneID    <- str_extract(tempPage, "(?<=gov/gene/).{1,20}(?=\">)")
    out       <- paste(Symbol, Accession, GeneID, sep = "---")
    return(out)
}


for(n in 1:3){
    print(extractInfo(GInumber = DataGranulomeTidy$GIaccessionNumber[n]))
}
 [1] "MYH9---   AAH49849---4627"
 [1] "GSN---   NP_000168---2934"
 [1] "KRT1---   NP_006112---3848"
Run Code Online (Sandbox Code Playgroud)

当我在 dplyr 管道中使用相同的功能时,我不起作用,我无法弄清楚为什么。

 > DataGranulomeTidy …
Run Code Online (Sandbox Code Playgroud)

r function bioinformatics ncbi dplyr

5
推荐指数
1
解决办法
121
查看次数