标签: bioinformatics

如何将 clusterw .dnd 文件转换为图像(png)文件?

我正在尝试从 dnd 文件创建 png 图像,以便更好地理解 dnd 文件。我见过一些将 dnd 文件转换为图像格式的软件,我有大约 2000 个 dnd 文件,我想将这些文件转换为图像文件以便更好地理解

是否可以从 clusterw dnd 文件创建系统发育树图像?

dnd 文件的一个示例如下所示:

(
(
A:0.336889,
(
(
B:0.204161,
(
(
(
C:0.112841,
(
D:0.0605849,
E:0.0605849):0.112841):0.133598,
(
F:0.0946236,
G:0.0946236):0.133598):0.148107,
H:0.148107):0.204161):0.285724,
I:0.285724):0.336889):0.338734,
J:0.338734):0.338734;
Run Code Online (Sandbox Code Playgroud)

bioinformatics

1
推荐指数
1
解决办法
2499
查看次数

如何统计字母出现的频率

我有一个这样的数据

>sp|Q96A73|P33MX_HUMAN Putative monooxygenase p33MONOX OS=Homo sapiens OX=9606 GN=KIAA1191 PE=1 SV=1
RNDDDDTSVCLGTRQCSWFAGCTNRTWNSSAVPLIGLPNTQDYKWVDRNSGLTWSGNDTCLYSCQNQTKGLLYQLFRNLFCSYGLTEAHGKWRCADASITNDKGHDGHRTPTWWLTGSNLTLSVNNSGLFFLCGNGVYKGFPPKWSGRCGLGYLVPSLTRYLTLNASQITNLRSFIHKVTPHR
>sp|P13674|P4HA1_HUMAN Prolyl 4-hydroxylase subunit alpha-1 OS=Homo sapiens OX=9606 GN=P4HA1 PE=1 SV=2
VECCPNCRGTGMQIRIHQIGPGMVQQIQSVCMECQGHGERISPKDRCKSCNGRKIVREKKILEVHIDKGMKDGQKITFHGEGDQEPGLEPGDIIIVLDQKDHAVFTRRGEDLFMCMDIQLVEALCGFQKPISTLDNRTIVITSHPGQIVKHGDIKCVLNEGMPIYRRPYEKGRLIIEFKVNFPENGFLSPDKLSLLEKLLPERKEVEE
>sp|Q7Z4N8|P4HA3_HUMAN Prolyl 4-hydroxylase subunit alpha-3 OS=Homo sapiens OX=9606 GN=P4HA3 PE=1 SV=1
MTEQMTLRGTLKGHNGWVTQIATTPQFPDMILSASRDKTIIMWKLTRDETNYGIPQRALRGHSHFVSDVVISSDGQFALSGSWDGTLRLWDLTTGTTTRRFVGHTKDVLSVAFSSDNRQIVSGSRDKTIKLWNTLGVCKYTVQDESHSEWVSCVRFSPNSSNPIIVSCGWDKLVKVWNLANCKLK
>sp|P04637|P53_HUMAN Cellular tumor antigen p53 OS=Homo sapiens OX=9606 GN=TP53 PE=1 SV=4
IQVVSRCRLRHTEVLPAEEENDSLGADGTHGAGAMESAAGVLIKLFCVHTKALQDVQIRFQPQL
>sp|P10144|GRAB_HUMAN Granzyme B OS=Homo sapiens OX=9606 GN=GZMB PE=1 SV=2
MQPILLLLAFLLLPRADAGEIIGGHEAKPHSRPYMAYLMIWDQKSLKRCGGFLIRDDFVLTAAHCWGSSINVTLGAHNIKEQEPTQQFIPVKRPIPHPAYNPKNFSNDIMLLQLERKAKRTRAVQPLRLPSNKAQVKPGQTCSVAGWGQTAPLGKHSHTLQEVKMTVQEDRKCES
>sp|Q9UHX1|PUF60_HUMAN Poly(U)-binding-splicing factor PUF60 OS=Homo sapiens OX=9606 GN=PUF60 PE=1 SV=1
MGKDYYQTLGLARGASDEEIKRAYRRQALRYHPDKNKEPGAEEKFKEIAEAYDVLSDPRKREIFDRYGEEGLKGSGPSGGSGGGANGTSFSYTFHGDPHAMFAEFFGGRNPFDTFFGQRNGEEGMDIDDPFSGFPMGMGGFTNVNFGRSRSAQEPARKKQDPPVTHDLRVSLEEIYSGCTKKMKISHK
>sp|Q06416|P5F1B_HUMAN Putative POU domain, class 5, transcription factor 1B OS=Homo sapiens …
Run Code Online (Sandbox Code Playgroud)

awk sed bioinformatics fasta

1
推荐指数
1
解决办法
573
查看次数

使用 R 删除总和为 0 的所有列

我有一个非常大的 CSV 文件,其中包含唯一 DNA 序列的计数,并且每个唯一序列都有一列。我从数百个样本开始,然后将其减少到我关心的仅 15 个样本,但现在我有数千个只包含零的列,这扰乱了我的数据处理。如何完全删除总和为零的任何列?我在这里看到了一些类似的问题,但这些建议都没有对我有用。

我的数据框中有 6653 列和 16 行。

如果重要的话,我的列都有超级疯狂的名称,大约有几百个字符长(AATCGGCTAA...等),而行名称是样本 ID,它们也不完全是数字。任何提示非常感谢。我还是 R 的新手,所以如果可以,请告诉我我需要更改代码示例中的哪些内容!谢谢!

r bioinformatics

1
推荐指数
1
解决办法
47
查看次数

如何使用awk进行多次匹配并在每个模式后打印不同数量的行

我有一个包含数千行的大文件,如下所示:

>ENST00001234.1
ACGTACGTACGG
TTACCCAGTACG
ATCGCATTCAGC
>ENST00002235.4
TTACGCAT
TAGGCCAG
>ENST00005546.9
TTTATCGC
TTAGGGTAT
Run Code Online (Sandbox Code Playgroud)

>例如,我想 grep 特定的 id(在符号之后),ENST00001234.1然后想在匹配之后获取行直到下一个>[不管行数]。我想以这种方式一次 grep 大约 63 个 ID。

如果我 grepENST00001234.1ENST00005546.9ids,理想的输出应该是:

>ENST00001234.1
ACGTACGTACGG
TTACCCAGTACG
ATCGCATTCAGC
>ENST00005546.9
TTTATCGC
TTAGGGTAT
Run Code Online (Sandbox Code Playgroud)

我试过了,awk '/ENST00001234.1/ENST00005546.9/{print}'但没有帮助。

bash awk grep bioinformatics fasta

1
推荐指数
1
解决办法
97
查看次数

类型错误:序列项 0:预期的 str 实例,在 python 3 中找到的列表

我试图将 RNA 序列作为输入并获取其各自的密码子作为输出。

例如:

输入:AUGGGAACUUCACUACGUAAAUAG

输出:密码子是:AUG, GGA, ACU, UCA, CUA, CGU, AAA, UAG

我在 Python 3.8 中这样编码:

rna = input("Enter the RNA sequence:")
list1 = []
rna = list(rna)

for i in range(len(rna)):
    list2 = []
    list2.append(rna[i : i + 3 : 3])
    liststr = "".join(list2)
    list1.append(liststr)

 print(list1)
Run Code Online (Sandbox Code Playgroud)

但是,我收到错误TypeError: sequence item 0: expected str instance, list found。这段代码有什么问题?

python bioinformatics

1
推荐指数
1
解决办法
3439
查看次数

使用 awk 或 sed 替换 fasta 标头中的单个字符

我正在 bash 中使用一个 fasta 文件,该文件的标题以“>”开头,以“C”或“+”结尾。就像这样:

>chr1:35031657-35037706+
GGTGGACTAGCCAGTGAATGTCAACGCGTCCCTA
CCTAAGGCGATATCCGCAGCCGCCCGCGTCCCTA
>chr1:71979382-71985425C
agattaaatgaactattacacataaagtgcttac
ttacacataaagtgcttacgaactattacaggga
Run Code Online (Sandbox Code Playgroud)

我想使用 awk (gsub?) 或 sed 将标题的最后一个字符更改为“+”(如果它是“C”)。基本上我希望所有序列都以“+”结尾。没有C。

期望的输出:

>chr1:35031657-35037706+
GGTGGACTAGCCAGTGAATGTCAACGCGTCCCTA
CCTAAGGCGATATCCGCAGCCGCCCGCGTCCCTA
>chr1:71979382-71985425+
agattaaatgaactattacacataaagtgcttac
ttacacataaagtgcttacgaactattacaggga
Run Code Online (Sandbox Code Playgroud)

序列不需要改变任何东西。我认为这非常简单,但我自己很难使用其他帖子来做到这一点。我知道这awk '/^>/ && /C$/{print $0}'将打印以“>”开头并以“C”结尾的标题,但我不确定如何用“+”替换所有这些“C”。

感谢您的帮助!

bash awk sed bioinformatics fasta

1
推荐指数
1
解决办法
737
查看次数

编写程序以在C中创建变量

我正在用C编写一个程序来读取FASTA文件和每个名字的文本(例如> COTV-SPAn232-096)我希望我的程序识别'>'然后在\n之前使用以下文本用作变量的名称.

对变量进行硬编码的问题是该程序需要尽可能动态,因为它可能在任意数量的不同数据集中读取.例如,我的测试集有15个不同的序列,如下所示:

COTV-SPAn232-096 MKILNSYNDFIISFINFILISTIQNVSISKLNILGYILSFIRIISISMDFDILKFSNIIQDYGLIFPDDIKKIQNEKFLVLERGLSGKLYAIHIYDFMARFDNETIFGIAKFLYRNNTKILDVLFINKDLFDKTDILYPKSTITLSSYSDEYIDYTYKTIKLIFLNLFNSFRFSKIDSKLSYLYLPLRKDINNVIL

计划以序列名称读取,将该名称设置为动态数组的变量,并使用malloc/realloc处理存储实际序列以便稍后比较所有不同序列.我可以处理除变量变量名之外的所有内容.

简单地四处寻找答案,看起来好像不能在C中完成,虽然可以在python和其他一些语言中.我真的希望这不是真实的情况,但是如果有人有其他建议来处理这个问题吗?是的,这是生物信息学,我可能应该使用python,perl,java或其他语言,但我宁愿在C中继续这个问题,以进一步精通C语言.

提前感谢我收到的任何答案!

c variables bioinformatics

0
推荐指数
1
解决办法
92
查看次数

t检验错误

我在正常的t检验中出错:

  data <- read.table("/Users/vdas/Documents/RNA-Seq_Smaples_Udine_08032013/GBM_29052013/UD_RP_25072013/filteredFPKM_matrix.txt",sep="",header=TRUE,stringsAsFactors=FALSE)

  PGT <- cbind(data[,2],data[,7],data[,24])
  PDGT <- cbind(data[,6],data[,8])
  pval2 <- NULL
  for(i in 1:length(PGT[,1])){
     pval2 <- c(pval2,t.test(as.numeric(PDGT[i,]),as.numeric(PGT[i,]))$p.value)
     print(i)
  }
Run Code Online (Sandbox Code Playgroud)

错误:

Error in t.test.default(as.numeric(PDGT[i, ]), as.numeric(PGT[i, ])) : 
  not enough 'x' observations
Run Code Online (Sandbox Code Playgroud)

我无法理解向量出了什么问题。你能告诉我吗?我还没弄清楚。

r bioinformatics hypothesis-test

0
推荐指数
1
解决办法
2万
查看次数

Python:如何基于具有二进制内容的文本文件提取DNA序列?

例如,我有一个包含以下序列的fasta文件:

>human1
AGGGCGSTGC
>human2
GCTTGCGCTAG
>human3
TTCGCTAG
Run Code Online (Sandbox Code Playgroud)

如何使用python读取具有以下内容的文本文件来提取序列?1表示真,0表示假.仅提取值为1的序列.

示例文本文件:

0
1
1
Run Code Online (Sandbox Code Playgroud)

预期产量:

>human2
GCTTGCGCTAG
>human3
TTCGCTAG
Run Code Online (Sandbox Code Playgroud)

python bioinformatics fasta biopython python-2.7

0
推荐指数
1
解决办法
1492
查看次数

正则表达式Python变量

我有这样的数据:

>Px016979
MSPWMKKVFLQCMPKLLMMRRTKYSLPDYDDTFVSNGYTNELEMSRDSLT
DAFGNSKEDSGDYRKSPAPEDDMVGAGAYQRPSVTESENMLPRHLSPEVA
AALQSVRFIAQHIKDADKDNEVVEDWKFMSMVLDRFFLWLFTIACFVGTF
GIIFQSPSLYDTRVPVDQQISSIPMRKNNFFYPKDIETIGIIS
>Px016980
MQFIKKVLLIALTLSGAMGISREKRGLIFPPTSLYGTFLAIAVPIDIPDK
NVFVSYNFESNYSTLNNITEIDEVLFPNLPVVTARHSRSITRELAYTVLE
TKFKEHGLGGRECLLRNICEAAETPLHHNGLLGHIMHIVFTPSSSAEEGL
DDEYYEAEASGRAGSCARYEELCPVGLFDLITRIVEFKHT
>Px002185
MLSPSVAIKVQVLYIGKVRISQRKVPDTLIDDALVKFVHHEAEKVKANML
RRHSLLSSTGTSIYSSESAENLNEDKTKTDTSEHNIFLMMLLRAHCEAKQ
LRHVHDTAENRTEFLNQYLGGSTIFMKAKRSLSSGFDQLLKRKSSRDEGS
GLVLPVKKVT
>Px006321
MFPGRTIGIMITASHNLEPDNGVKLVDPDGEMLDGSWEEIATRMANVRYL
PMSLITKFLVNSYY
Run Code Online (Sandbox Code Playgroud)

我想要做的是,如果我有数字> Px016979或我可以得到它下面的数据.像这样:

>Px016979
MSPWMKKVFLQCMPKLLMMRRTKYSLPDYDDTFVSNGYTNELEMSRDSLT
DAFGNSKEDSGDYRKSPAPEDDMVGAGAYQRPSVTESENMLPRHLSPEVA
AALQSVRFIAQHIKDADKDNEVVEDWKFMSMVLDRFFLWLFTIACFVGTF
GIIFQSPSLYDTRVPVDQQISSIPMRKNNFFYPKDIETIGIIS
Run Code Online (Sandbox Code Playgroud)

我是Python新手.

#coding:utf-8
import os,re


a =   """ 
    >Px016979 
    MSPWMKKVFLQCMPKLLMMRRTKYSLPDYDDTFVSNGYTNELEMSRDSLT 
    DAFGNSKEDSGDYRKSPAPEDDMVGAGAYQRPSVTESENMLPRHLSPEVA 
    AALQSVRFIAQHIKDADKDNEVVEDWKFMSMVLDRFFLWLFTIACFVGTF 
    GIIFQSPSLYDTRVPVDQQISSIPMRKNNFFYPKDIETIGIIS 
    >Px016980 
    MQFIKKVLLIALTLSGAMGISREKRGLIFPPTSLYGTFLAIAVPIDIPDK 
    NVFVSYNFESNYSTLNNITEIDEVLFPNLPVVTARHSRSITRELAYTVLE 
    TKFKEHGLGGRECLLRNICEAAETPLHHNGLLGHIMHIVFTPSSSAEEGL 
    DDEYYEAEASGRAGSCARYEELCPVGLFDLITRIVEFKHT"
    >Px002185
    MLSPSVAIKVQVLYIGKVRISQRKVPDTLIDDALVKFVHHEAEKVKANML
    RRHSLLSSTGTSIYSSESAENLNEDKTKTDTSEHNIFLMMLLRAHCEAKQ
    LRHVHDTAENRTEFLNQYLGGSTIFMKAKRSLSSGFDQLLKRKSSRDEGS
    GLVLPVKKVT
    >Px006321
    MFPGRTIGIMITASHNLEPDNGVKLVDPDGEMLDGSWEEIATRMANVRYL
    PMSLITKFLVNSYY

    """

  b = '>Px016979'


  matchbj = re.match( r'$b(.*?)>',a,re.M|re.I)

  print matchbj.group()
Run Code Online (Sandbox Code Playgroud)

我的代码无法正常工作.我有两个问题:

  1. 我认为我的数据有回车,所以我的代码无法正常工作.

  2. 我不知道如何在Python正则表达式中使用变量.如果我写re.match( r'>Px016797(.*?)>',a,re.M|re.I)它可以工作,但我需要使用变量.

谢谢.

python regex bioinformatics

0
推荐指数
1
解决办法
213
查看次数

标签 统计

bioinformatics ×10

fasta ×4

awk ×3

python ×3

bash ×2

r ×2

sed ×2

biopython ×1

c ×1

grep ×1

hypothesis-test ×1

python-2.7 ×1

regex ×1

variables ×1