hel*_*ndy 30 character bioinformatics count google-sheets
题
例如,如果我想计算N字符串列中s 的数量,我如何在每个单元格的Google Spreadsheets中执行此操作(即,一次指向一个单元格的公式,我可以向下拖动)?

背景
我必须确定一个-min-overlap <integer>名为TOMTOM**的程序的阈值,该程序比较小DNA图案****的PWM之间的相似性,N是字母A,C,G和T的任何线性组合的正则表达式.如果我能够了解我的DNA基序的非N长度的分布,以帮助告诉我-min-overlap <integer>TOMTOM 的正确值,那将是很好的.
以下是一些真实的例子:

**TOMTOM是一种用于将DNA基序与已知基序数据库进行比较的工具.有关详细信息,请参见此处
***PWM代表位置权重矩阵:
位置权重矩阵(PWM)或类似PWM的模型广泛用于表示蛋白质的DNA结合偏好(Stormo,2000).在这些模型中,矩阵用于表示TF结合位点(TFBS),每个元素代表对应于来自相应位置的核苷酸的总结合亲和力的贡献.传统PWM模型的固有假设是位置独立性; 也就是说,假定TFBS内不同核苷酸位置对总结合亲和力的贡献是相加的.尽管这种近似是广泛有效的,但它并不适用于几种蛋白质(Man&Stormo,2001; Bulyk等,2002).为了改进定量建模,PWM模型已经扩展到包括其他参数,例如k-mer特征,以解释TFBS内的位置依赖性(Zhao等,2012; Mathelier&Wasserman,2013; Mordelet等,2013; Weirauch等. al,2013; Riley等,2015).核苷酸位置之间的相互依赖性具有结构起源.例如,相邻碱基对之间的堆叠相互作用形成局部三维DNA结构.TF对序列依赖性DNA构象具有偏好,我们将其称为DNA形状读数(Rohs等,2009,2010).
或者,更现代的:
基于这一基本原理,增强传统PWM模型的另一种方法是包含DNA结构特征.结合这些DNA形状特征的TF-DNA结合特异性模型实现了与包含高阶k聚体特征的模型相当的性能水平,同时需要更少数量的参数(Zhou等,2015).我们之前揭示了DNA形状读数对于基本螺旋 - 环 - 螺旋(bHLH)和同源域TF家族成员的重要性(Dror等,2014; Yang等,2014; Zhou等,2015).对于Hox TFs,我们还能够识别TFBS中哪些区域使用DNA形状读数,证明该方法的力量可以揭示对TF-DNA识别的机制见解(Abe等,2015).由于缺乏大规模的高质量TF-DNA结合数据,仅在两个蛋白质家族中广泛显示了这种能力.随着最近丰富的蛋白质-DNA结合的高通量测量,现在可以剖析DNA形状读数对许多TF家族的作用.
****DNA基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或被推测具有生物学意义.对于蛋白质,序列基序与结构基序不同,结构基序是由氨基酸的三维排列形成的基序,其可能不相邻.
pnu*_*uts 59
一次一个单元格的替代方案(要复制的公式):
=len(A2)-len(SUBSTITUTE(A2,"N",""))
Run Code Online (Sandbox Code Playgroud)
JPV*_*JPV 12
我不知道这是否会有所帮助但让我们说你在A2:A6范围内有那些字符串然后你进入
=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
Run Code Online (Sandbox Code Playgroud)
在B2中,应输出整个范围的N计数.