标签: ncbi

如何从出租车获得王国,门,类,秩序,家庭,属和物种的分类学特定ID？

我有一个如下所示的出租车列表:

Run Code Online (Sandbox Code Playgroud)

我希望从上面的出租车中获取一个带有分类标准的文件:

kingdom_id      phylum_id       class_id        order_id        family_id       genus_id        species_id

Run Code Online (Sandbox Code Playgroud)

我正在使用" ete3 " 包.我使用工具ete-ncbiquery来告诉你上面的id的谱系.(我使用下面的命令从我的linux笔记本电脑上运行它)

ete3 ncbiquery --search 1204725 2162 13000163 420247 --info

Run Code Online (Sandbox Code Playgroud)

结果如下:

# Taxid Sci.Name    Rank    Named Lineage   Taxid Lineage
2162    Methanobacterium formicicum species root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum   1,131567,2157,28890,183925,2158,2159,2160,2162
1204725 Methanobacterium formicicum DSM 3637    no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobacterium,Methanobacterium formicicum,Methanobacterium formicicum DSM 3637  1,131567,2157,28890,183925,2158,2159,2160,2162,1204725
420247  Methanobrevibacter smithii ATCC 35061   no rank root,cellular organisms,Archaea,Euryarchaeota,Methanobacteria,Methanobacteriales,Methanobacteriaceae,Methanobrevibacter,Methanobrevibacter smithii,Methanobrevibacter smithii ATCC 350611,131567,2157,28890,183925,2158,2159,2172,2173,420247

Run Code Online (Sandbox Code Playgroud)

我不知道哪些项目(IDS)对应于我要找的东西(如果有的话)

bioinformatics taxonomy ncbi phylogeny etetoolkit

aLb*_*bAc

2016 09-16

8
推荐指数

1
解决办法

2107
查看次数

如何从 pubmed data ncbi 下载所有抽象数据

我想下载所有发布的数据摘要。有谁知道我如何轻松下载所有已发表的文章摘要？

我得到了数据的来源：ftp : //ftp.ncbi.nlm.nih.gov/pub/pmc/af/12/

反正有没有下载所有这些tar文件..

提前致谢。

ncbi pubmed

Sou*_*jan

lucky-day

7
推荐指数

1
解决办法

6423
查看次数

如何从XML NCBI BLAST文件中提取第一个命中元素？

我试图只从NCBI xml BLAST文件中提取第一个命中.接下来我想获得第一个HSP.在最后阶段,我想根据最高分获得这些.在这里清楚地说明xml文件的一个示例:

<?xml version="1.0"?>
<!DOCTYPE BlastOutput PUBLIC "-//NCBI//NCBI BlastOutput/EN" "http://www.ncbi.nlm.nih.gov/dtd/NCBI_BlastOutput.dtd">
<BlastOutput>
  <BlastOutput_program>blastx</BlastOutput_program>
  <BlastOutput_version>blastx 2.2.22 [Sep-27-2009]</BlastOutput_version>
  <BlastOutput_reference>~Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, ~Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), ~&quot;Gapped BLAST and PSI-BLAST: a new generation of protein database search~programs&quot;,  Nucleic Acids Res. 25:3389-3402.</BlastOutput_reference>
  <BlastOutput_db>/Applications/blast/db/viral1.protein.faa</BlastOutput_db>
  <BlastOutput_query-ID>lcl|1_0</BlastOutput_query-ID>
  <BlastOutput_query-def>DSAD-090629_plate11A01a.g1 CHROMAT_FILE: DSAD-090629_plate11A01a.g1 PHD_FILE: DSAD-090629_plate11A01a.g1.phd.1 CHEM: term DYE: big TIME: Thu Sep 17 15:33:59 2009 TEMPLATE: DSAD-090629_plate11A01a DIRECTION: rev</BlastOutput_query-def>
  <BlastOutput_query-len>1024</BlastOutput_query-len>
  <BlastOutput_param>
    <Parameters>
      <Parameters_matrix>BLOSUM62</Parameters_matrix>
      <Parameters_expect>1e-05</Parameters_expect>
      <Parameters_gap-open>11</Parameters_gap-open>
      <Parameters_gap-extend>1</Parameters_gap-extend> …

Run Code Online (Sandbox Code Playgroud)

python xml bioinformatics elementtree ncbi

Sch*_*Cat

2011 05-27

6
推荐指数

2
解决办法

7008
查看次数

根据 NCBI 帮助台回答的问题之一，我们不能“批量下载” PubMed Central。但是，我可以使用“NCBI E-utilities”使用Efetch下载PMC 数据库中的所有全文论文，或者至少使用Entrez Programming Utilities 中的Esearch找到所有相应的 PMCid吗？如果是，那么如何？如果无法使用E-utilities，有没有其他方法可以下载所有全文文章？

api download ncbi pubmed

s.2*_*330

lucky-day

6
推荐指数

1
解决办法

1875
查看次数

NCBI基因数据库问题

我试图找到具有基因名和染色体位置的gene_info文件.但是,我似乎无法在NCBI FTP站点上找到它.任何人都可以给我指针吗？

bioinformatics ncbi

Sci*_*are

2011 05-27

5
推荐指数

1
解决办法

533
查看次数

如何使用Perl从NCBI获得FASTA核苷酸形式的基因特征？

我可以手动下载FASTA文件,如下所示:

>lcl|CR543861.1_gene_1... ATGCTTTGGACA... >lcl|CR543861.1_gene_2... GTGCGACTAAAA...
Run Code Online (Sandbox Code Playgroud)
通过单击"发送到"并选择"基因特征",FASTA核苷酸是唯一的选项(这很好,因为这就是我想要的)在此页面上.

使用这样的脚本:

#!/usr/bin/env perl use strict; use warnings; use Bio::DB::EUtilities; my $factory = Bio::DB::EUtilities->new(-eutil => 'efetch', -db => 'nucleotide', -id => 'CR543861', -rettype => 'fasta'); my $file = 'CR543861.fasta'; $factory->get_Response(-file => $file);
Run Code Online (Sandbox Code Playgroud)
我得到一个看起来像这样的文件:

>gi|49529273|emb|CR543861.1| Acinetobacter sp. ADP1 complete genome GATATTTTATCCACA...
Run Code Online (Sandbox Code Playgroud)
将整个基因组序列集中在一起.如何获取第一个(手动下载)文件中的信息？

我查看了其他一些帖子:

如何在biopython entrez.esearch中下载完整的基因组序列(这个答案似乎相关)

如何只用一个入藏号下载整个GenBank文件？

以及来自EUtilities Cookbook的这一部分.

我尝试获取并保存GenBank文件(因为它似乎对我得到的.gb文件中的每个基因都有单独的序列),但是当我使用Bio :: SeqIO使用它时,我将只获得1个大序列.

database perl fasta bioperl ncbi

use*_*933

2017 05-23

5
推荐指数

1
解决办法

1058
查看次数

Biopython NCBIWWW.qblast 测试文件 - 挂起

当我尝试运行 Biopython 提供的用于 NCBIWWW.qblast 在线搜索的测试文件时，它只是一直挂着，从不响应。当我尝试自己运行任何包含 NCBIWWW.qblast 的脚本时，也会发生同样的情况：它刚刚到达此行并停止。不会发出任何错误消息，不会收到任何结果，并且该过程永远不会以任何方式结束。

产生问题的脚本之一是：

from Bio.Blast import NCBIWWW result_handle=qblast('blastn', 'nt', 'AGAAAGGGTATATAAAATCAAGAATCTGGGGTGTTTGTGTTGACTTGTATAATTCTTGATTTTTTCAGGTAGTTGAAAAGGTGGGAGAAAAGTGGAGAAGCCTAAGCTGATATTGAAATTCATATGGATGGAAGAACATTGGTTTAGGATTGGATCAAAAAATAGGTGGACATGGAACTGTA')
Run Code Online (Sandbox Code Playgroud)
可能是什么问题？

biopython blast python-3.x ncbi

use*_*828

2014 03-19

5
推荐指数

1
解决办法

1049
查看次数

从数据库检索数据的功能出错

我正在尝试从NCBI网站获取FASTA文件，我使用以下功能

getncbiseq <- function(accession){ dbs <- c() for (i in 1:numdbs){ db <- dbs[i] choosebank(db) resquery <- try(query(".tmpquery", paste("AC=", accession)),silent = TRUE) if (!(inherits(resquery, "try-error"))){ queryname <- "query2" thequery <- paste("AC=",accession,sep="") query(`queryname`,`thequery`) # see if a sequence was retrieved: seq <- getSequence(query2$req[[1]]) closebank() return(seq) } closebank() } print(paste("ERROR: accession",accession,"was not found")) }
Run Code Online (Sandbox Code Playgroud)
当我尝试检索序列时

mydata <- getncbiseq("NC_001477")
Run Code Online (Sandbox Code Playgroud)

getSequence（query2 $ req [[1]]）中的错误：找不到对象'query2'

还有缩短这些循环功能的更好方法吗？

如果我用

query('queryname','the query') #or query("queryname","thequery")
Run Code Online (Sandbox Code Playgroud)
我收到另一个错误

query（“ queryname”，“ thequery”）中的错误：无效的请求：“（^）处的未知列表：\”（^）thequery \“”

r bioinformatics ncbi

nik*_*nik

2019 09-24

5
推荐指数

1
解决办法

976
查看次数

expected str, bytes or os.PathLike object, not InMemoryUploadedFile

I have a method to read a Newick file and return a String in Django framework which is the following:

def handle_uploaded_file(f): output = " " for chunk in f.chunks(): output += chunk.decode('ascii') return output.replace("\n", "").replace("\r", "") def post(self, request): form = HomeForm(request.POST, request.FILES) if form.is_valid(): input = handle_uploaded_file(request.FILES['file']) treeGelezen = Tree(input, format=1) script, div = mainmain(treeGelezen) form = HomeForm() args = {'form': form, 'script': script, 'div': div} return render(request, self.template_name, args)
Run Code Online (Sandbox Code Playgroud)
对于普通的Newick文件，它的工作正常，但我也有一些文件，在文件的开头有一个字符串。我正在尝试使用另一种方法来检查文件之前是否具有以下字符串（某些文件就是这种情况）：“ newick;” 并删除该字符串（如果找到）。它在本地工作，但我似乎无法合并它们。这是本地的样子：

def removeNewick(tree_with_newick): for x in …
Run Code Online (Sandbox Code Playgroud)

python django ncbi ete3

作者

2018 06-01

5
推荐指数

1
解决办法

3489
查看次数

用户定义的函数在 dplyr 管道中不起作用

我有一个带有蛋白质登录号的数据集 (DataGranulomeTidy)。我在 r 中编写了一个函数 (extractInfo) 来从 ncbi 网站上抓取这些蛋白质的一些信息。当我在一个简短的“for”循环中运行它时，该函数按预期工作。

DataGranulomeTidy <- tibble(GIaccessionNumber = c("29436380", "4504165", "17318569")) extractInfo <- function(GInumber){ tempPage <- readLines(paste("https://www.ncbi.nlm.nih.gov/sviewer/viewer.fcgi?id=", GInumber, "&db=protein&report=genpept&conwithfeat=on&withparts=on&show-cdd=on&retmode=html&withmarkup=on&tool=portal&log$=seqview&maxdownloadsize=1000000", sep = ""), skipNul = TRUE) tempPage <- base::paste(tempPage, collapse = "") Accession <- str_extract(tempPage, "(?<=ACCESSION).{3,20}(?=VERSION)") Symbol <- str_extract(tempPage, "(?<=gene=\").{1,20}(?=\")") GeneID <- str_extract(tempPage, "(?<=gov/gene/).{1,20}(?=\">)") out <- paste(Symbol, Accession, GeneID, sep = "---") return(out) } for(n in 1:3){ print(extractInfo(GInumber = DataGranulomeTidy$GIaccessionNumber[n])) } [1] "MYH9--- AAH49849---4627" [1] "GSN--- NP_000168---2934" [1] "KRT1--- NP_006112---3848"
Run Code Online (Sandbox Code Playgroud)
当我在 dplyr 管道中使用相同的功能时，我不起作用，我无法弄清楚为什么。

> DataGranulomeTidy …
Run Code Online (Sandbox Code Playgroud)

r function bioinformatics ncbi dplyr

net*_*lak

2021 03-21

5
推荐指数

1
解决办法

121
查看次数

标签统计

ncbi ×10

bioinformatics ×5

pubmed ×2

python ×2

r ×2

api ×1

bioperl ×1

biopython ×1

blast ×1

database ×1

django ×1

download ×1

dplyr ×1

elementtree ×1

ete3 ×1

etetoolkit ×1

fasta ×1

function ×1

perl ×1

phylogeny ×1

python-3.x ×1

taxonomy ×1

xml ×1

标签 统计

标签统计