我必须将DNA序列的互补序列翻译成氨基酸
TTTCAATACTAGCATGACCAAAGTGGGAACCCCCTTACGTAGCATGACCCATATATATATATATA
TATATATATATATATGGGTCATGCTACGTAAGGGGGTTCCCACTTTGGTCATGCTAGTATTGAAA
+1 TyrIleTyrIleTyrGlySerCysTyrValArgGlyPheProLeuTrpSerCysStpTyrStp
+2 IleTyrIleTyrMetGlyHisAlaThrOc*GlyGlySerHisPheGlyHisAlaSerIleglu
+3 TyrIleTyrIleTrpValMetLeuArgLysGlyValProThrLeuValMetLeuValLeuLys
Run Code Online (Sandbox Code Playgroud)
我已经尝试了下一个代码来获得我的结果,但所以我得到了一个补充的seq.没有分裂.
seq = "CCGGAAGAGCTTACTTAG"
basecomplement = {'A': 'T', 'C': 'G', 'G': 'C', 'T': 'A'}
def translate(seq):
x = 0
aaseq = []
while True:
try:
aaseq.append(basecomplement[seq[x:x+1]])
x += 1
except (IndexError, KeyError):
break
return aaseq
for frame in range(1):
#print(translate(seq[frame:]))
rseqn= (''.join(item.split('|')[0] for item in translate(seq[frame:])))
rseqn = list(rseqn)
rseqn.reverse()
print( rseqn)
Run Code Online (Sandbox Code Playgroud)
谁能帮助我得到我的结果?
我正在尝试为我的生物学研究制作一个程序.
我需要采取这个顺序:
NNNNNNNNNNCCNNAGTGNGNACAGACGACGGGCCCTGGCCCCTCGCACACCCTGGACCA
AGTCAATCGCACCCACTTCCCTTTCTTCTCGGATGTCAAGGGCGACCACCGGTTGGTGTT
GAGCGTCGTGGAGACCACCGTTCTGGGGCTCATCTTTGTCGTCTCACTGCTGGGCAACGT
GTGTGCTCTAGTGCTGGTGGCGCGCCGTCGGCGCCGTGGGGCGACAGCCAGCCTGGTGCT
CAACCTCTTCTGCGCGGATTTGCTCTTCACCAGCGCCATCCCTCTAGTGCTCGTCGTGCG
CTGGACTGAGGCCTGGCTGTTGGGGCCCGTCGTCTGCCACCTGCTCTTCTACGTGATGAC
AATGAGCGGCAGCGTCACGATCCTCACACTGGCCGCGGTCAGCCTGGAGCGCATGGTGTG
CATCGTGCGCCTCCGGCGCGGCTTGAGCGGCCCGGGGCGGCGGACTCAGGCGGCACTGCT
GGCTTTCATATGGGGTTACTCGGCGCTCGCCGCGCTGCCCCTCTGCATCTTGTTCCGCGT
GGTCCCGCAGCGCCTTCCCGGCGGGGACCAGGAAATTCCGATTTGCACATTGGATTGGCC
CAACCGCATAGGAGAAATCTCATGGGATGTGTTTTTTGTGACTTTGAACTTCCTGGTGCC
GGGACTGGTCATTGTGATCAGTTACTCCAAAATTTTACAGATCACGAAAGCATCGCGGAA
GAGGCTTACGCTGAGCTTGGCATACTCTGAGAGCCACCAGATCCGAGTGTCCCAACAAGA
CTACCGACTCTTCCGCACGCTCTTCCTGCTCATGGTTTCCTTCTTCATCATGTGGAGTCC
CATCATCATCACCATCCTCNCATCTTGATCCAAAACTTCCGGCAGGACCTGGNCATCTGG
NCATCCCTTTTCTTCTGGGNNGTNNNNNCACGTTGCNACTCTNCCTAAANCCCATACTGT
ANNANATGNCGCTNNNAGGAANGAATGGAGGAANANTTTTTGNNNNNNNNN
Run Code Online (Sandbox Code Playgroud)
...并删除开头的最后一个N和结尾的第一个N. 换句话说,让它看起来像这样:
ACAGACGACGGGCCCTGGCCCCTCGCACACCCTGGACCA
AGTCAATCGCACCCACTTCCCTTTCTTCTCGGATGTCAAGGGCGACCACCGGTTGGTGTT
GAGCGTCGTGGAGACCACCGTTCTGGGGCTCATCTTTGTCGTCTCACTGCTGGGCAACGT
GTGTGCTCTAGTGCTGGTGGCGCGCCGTCGGCGCCGTGGGGCGACAGCCAGCCTGGTGCT
CAACCTCTTCTGCGCGGATTTGCTCTTCACCAGCGCCATCCCTCTAGTGCTCGTCGTGCG
CTGGACTGAGGCCTGGCTGTTGGGGCCCGTCGTCTGCCACCTGCTCTTCTACGTGATGAC
AATGAGCGGCAGCGTCACGATCCTCACACTGGCCGCGGTCAGCCTGGAGCGCATGGTGTG
CATCGTGCGCCTCCGGCGCGGCTTGAGCGGCCCGGGGCGGCGGACTCAGGCGGCACTGCT
GGCTTTCATATGGGGTTACTCGGCGCTCGCCGCGCTGCCCCTCTGCATCTTGTTCCGCGT
GGTCCCGCAGCGCCTTCCCGGCGGGGACCAGGAAATTCCGATTTGCACATTGGATTGGCC
CAACCGCATAGGAGAAATCTCATGGGATGTGTTTTTTGTGACTTTGAACTTCCTGGTGCC
GGGACTGGTCATTGTGATCAGTTACTCCAAAATTTTACAGATCACGAAAGCATCGCGGAA
GAGGCTTACGCTGAGCTTGGCATACTCTGAGAGCCACCAGATCCGAGTGTCCCAACAAGA
CTACCGACTCTTCCGCACGCTCTTCCTGCTCATGGTTTCCTTCTTCATCATGTGGAGTCC
CATCATCATCACCATCCTC
Run Code Online (Sandbox Code Playgroud)
我该怎么做?
我有一个 6200 行长的文件,如下所示:
chrom chromStart chromEnd score a a.1
1 chr1 834359 867552 4 0.020979021 0.0000000000
2 chr1 1880283 1940830 9 0.075757576 0.0000000000
3 chr1 1960387 2064958 13 0.115093240 0.0006596306
4 chr1 2206040 2249092 5 0.019230769 0.0000000000
5 chr1 2325759 2408930 11 0.021296885 0.0080355001
Run Code Online (Sandbox Code Playgroud)
我需要将文件分成 1000 行长的文件。如何才能做到这一点?
这是文件:https : //drive.google.com/file/d/0B5v-nJeoVouHc25wTGdqaDV1WW8/view?usp=sharing
如您所见,第一列中有重复项,但是如果我要合并重复的行,则其他列中不会覆盖任何数据。有什么办法可以将第一列中具有重复值的行合并?
例如,将“ 1,A,A,”和“ 1,,T,T”变成“ 1,A,A,T,T”。
我是R的新手,需要一些帮助.我有一个巨大的数据框架,其中包含不同的患者样本.每位患者都有24'铬.每个'chrom'有3个段.以下是患者'A2461'的示例.以下是我所拥有的一些数据的示例:
ID chrom loc.start loc.end num.mark seg.mean seg.sd seg.median seg.mad
1 A2461 1 61735 23342732 13103 0.0314 0.4757 0.0221 0.4811
2 A2461 1 23345569 54962669 17435 -0.0103 0.4807 -0.0292 0.4821
3 A2461 1 54963958 55075062 57 0.4841 0.4070 0.5201 0.3519
1 A2461 2 12784 17248573 13037 -0.0037 0.4643 -0.0053 0.4583
2 A2461 2 17248890 85480817 45819 -0.0331 0.4667 -0.0352 0.4635
3 A2461 2 85481399 89121495 1626 0.0153 0.4727 0.0000 0.4617
Run Code Online (Sandbox Code Playgroud)
我目前通过使用以下代码获得总平均值:
seg_mean <- df$seg.mean
mean(seg_mean)
Run Code Online (Sandbox Code Playgroud)
但是,我想计算每个染色体'seg.mean'的平均值,并输出一个澄清患者ID和chrom的输出.所以也许像......
ID chrom seg.mean
A2461 …Run Code Online (Sandbox Code Playgroud) 在以下行中:(bla - 表示不重要)
> blabla|blabla|bla|blabla| blabla [Geobacter sp. M21]
> blabla|blabla|bla|blabla| blabla [Acetobacter pasteurianus IFO 3283-07]
> blabla|blabla|bla|blabla| blabla [Gardnerella vaginalis ATCC 14019]
> blabla|blabla|bla|blabla| blabla [Granulibacter bethesdensis CGDNIH1]
Run Code Online (Sandbox Code Playgroud)
我试图将括号[]中的所有信息作为:
Geobacter sp. M21
Acetobacter pasteurianus IFO 3283-07
Gardnerella vaginalis ATCC 14019
Granulibacter bethesdensis CGDNIH1
Run Code Online (Sandbox Code Playgroud)
我的代码在这里当然不起作用 - 在[]中有时候是3,有时是4个"alfanumeric words",还有像"."或" - "这样的字符:
import re
#code...
pattern = r'[ \w+ \w+ \w+ ]'
for i in lines_:
m = re.search ( pattern, str(i) )
print m.group()
Run Code Online (Sandbox Code Playgroud)
这样可以使用正则表达式获取这些信息吗?
我遇到了一个问题,它要么将所有 Gs 替换为 Cs,但不将 C 替换为 Gs,我该怎么做才能解决这个问题?我现在得到的输出是“GUGAGGGGAG”我正在寻找的输出是“CUCAGCGCAG”这是我到目前为止的代码:
a_string = "GAGTCGCGTC"
remove_characters = ["G", "A", "T", "C"]
ch1 = "G"
ch2 = "A"
ch3 = "T"
ch4 = "C"
a_string = a_string.replace (ch1, "C")
a_string = a_string.replace (ch2, "U")
a_string = a_string.replace (ch3, "A")
a_string = a_string.replace (ch4, "G")
print (a_string)
Run Code Online (Sandbox Code Playgroud)
我正在为python类的介绍工作,我在编写脚本来读取文件时遇到了很多麻烦,然后在文件的序列开头识别条形码.
这就是我要打开我的文件:
#!/usr/bin/python
import sys
fname = sys.argv[1]
handle = open(fname , "r")
# read the file #
for line in handle:
print line.strip()
handle.close()
Run Code Online (Sandbox Code Playgroud)
它完美地打开我的文件并将内容打印到屏幕上.
我有的问题是添加到此以完成作业我收到错误消息,我不知道我做错了什么.
我将不胜感激任何帮助或建议.
作业和正确的预期结果详细说明:
创建一个名为〜/ assignments/assignment07/assignment07.py的可执行文件
python脚本应该采用2个命令行参数(按顺序):
(1)DNA条形码(2)含有DNA序列的文件的名称
您的脚本应该打印序列文件中与序列开头的给定条形码匹配的所有DNA序列,但丢弃条形码.不要打印条形码,只打印与条形码匹配的序列,并且不匹配不在序列前面的条形码.
#!/usr/bin/python
import sys
barcode = sys.argv[1]
filename = sys.argv[2]
bclen = len(bacode)
handle = open(fname, "r")
# read the file #
for line in handle:
print line.strip()
for line in filename:
bc = line[4:][:bclen]
seq = line[4:19][bclen:]
if bc == barcode:
seqslice = sequence[4:]
#print "barcode …Run Code Online (Sandbox Code Playgroud) python ×6
python-3.x ×3
barcode ×1
bash ×1
biopython ×1
csv ×1
dataframe ×1
dna-sequence ×1
dplyr ×1
mean ×1
r ×1
regex ×1
string ×1
translation ×1