计算每个单元格给定字符的出现次数

hel*_*ndy 30 character bioinformatics count google-sheets

例如,如果我想计算N字符串列中s 的数量,我如何在每个单元格的Google Spreadsheets中执行此操作(即,一次指向一个单元格的公式,我可以向下拖动)?

字符串/计数表

背景

我必须确定一个-min-overlap <integer>名为TOMTOM**的程序的阈值,该程序比较小DNA图案****的PWM之间的相似性,N是字母A,C,G和T的任何线性组合的正则表达式.如果我能够了解我的DNA基序的非N长度的分布,以帮助告诉我-min-overlap <integer>TOMTOM 的正确值,那将是很好的.

以下是一些真实的例子:

在此输入图像描述

**TOMTOM是一种用于将DNA基序与已知基序数据库进行比较的工具.有关详细信息,请参见此处

***PWM代表位置权重矩阵:

  • 根据Wiki:位置权重矩阵(PWM),也称为位置特异性权重矩阵(PSWM)或位置特异性评分矩阵(PSSM),是生物序列中基序(模式)的常用表示.
  • 根据这篇论文,它可以定义为:

位置权重矩阵(PWM)或类似PWM的模型广泛用于表示蛋白质的DNA结合偏好(Stormo,2000).在这些模型中,矩阵用于表示TF结合位点(TFBS),每个元素代表对应于来自相应位置的核苷酸的总结合亲和力的贡献.传统PWM模型的固有假设是位置独立性; 也就是说,假定TFBS内不同核苷酸位置对总结合亲和力的贡献是相加的.尽管这种近似是广泛有效的,但它并不适用于几种蛋白质(Man&Stormo,2001; Bulyk等,2002).为了改进定量建模,PWM模型已经扩展到包括其他参数,例如k-mer特征,以解释TFBS内的位置依赖性(Zhao等,2012; Mathelier&Wasserman,2013; Mordelet等,2013; Weirauch等. al,2013; Riley等,2015).核苷酸位置之间的相互依赖性具有结构起源.例如,相邻碱基对之间的堆叠相互作用形成局部三维DNA结构.TF对序列依赖性DNA构象具有偏好,我们将其称为DNA形状读数(Rohs等,2009,2010).

或者,更现代的:

基于这一基本原理,增强传统PWM模型的另一种方法是包含DNA结构特征.结合这些DNA形状特征的TF-DNA结合特异性模型实现了与包含高阶k聚体特征的模型相当的性能水平,同时需要更少数量的参数(Zhou等,2015).我们之前揭示了DNA形状读数对于基本螺旋 - 环 - 螺旋(bHLH)和同源域TF家族成员的重要性(Dror等,2014; Yang等,2014; Zhou等,2015).对于Hox TFs,我们还能够识别TFBS中哪些区域使用DNA形状读数,证明该方法的力量可以揭示对TF-DNA识别的机制见解(Abe等,2015).由于缺乏大规模的高质量TF-DNA结合数据,仅在两个蛋白质家族中广泛显示了这种能力.随着最近丰富的蛋白质-DNA结合的高通量测量,现在可以剖析DNA形状读数对许多TF家族的作用.

****DNA基序:wiki:在遗传学中,序列基序是一种广泛存在的核苷酸或氨基酸序列模式,具有或被推测具有生物学意义.对于蛋白质,序列基序与结构基序不同,结构基序是由氨基酸的三维排列形成的基序,其可能不相邻.

pnu*_*uts 59

一次一个单元格的替代方案(要复制的公式):

=len(A2)-len(SUBSTITUTE(A2,"N",""))
Run Code Online (Sandbox Code Playgroud)

  • 这也适用于Arrayformula:= ArrayFormula(len(A2:A7)-len(SUBSTITUTE(A2:A7,"N",""))) (4认同)
  • `=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))` 更好,因为它更短,仅提及一次范围,并且为您提供了更好的正则表达式灵活性 (3认同)
  • @pnuts.谢谢,非常感谢! (2认同)

JPV*_*JPV 12

我不知道这是否会有所帮助但让我们说你在A2:A6范围内有那些字符串然后你进入

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))
Run Code Online (Sandbox Code Playgroud)

在B2中,应输出整个范围的N计数.

  • 这有效,但我不知道为什么......但它看起来很酷.. + 1 (3认同)