标签: sequence-analysis

连续序列数据中的模式

假设我有一个事件列表.例如A, D, T, H, U, A, B, F, H, ....

我需要的是找到完整序列中出现的频繁模式.在这个问题中,我们不能使用传统算法,如先验或fp增长,因为它们需要单独的项集.并且,我无法将此流分解为更小的集合.

知道哪种算法对我有用吗?


编辑

例如,对于序列A, D, T, H, U, A, D, T, H, T, H, U, A, H, T, H和with min_support = 2.

频繁的模式将是

Of length 1 --> [A, D, T, H, U]
Of length 2 --> [AD, DT, TH, HU, UA, HT]
Of length 3 --> [ADT, DTH, THU, HUA]
Of length 4 --> [ADTH, THUA]
No sequences of length 5 and further
Run Code Online (Sandbox Code Playgroud)

algorithm frequency data-mining sequence-analysis

6
推荐指数
1
解决办法
678
查看次数

使用正则表达式检测测序

想象一下,我在列表中有多个字符串,如下所示:

[[1]]
 [1] "1-FA-1-I2-1-I2-1-I2-1-EX-1-I2-1-I3-1-FA-1-" 
 [2] "-1-I2-1-TR-1-"                              
 [3] "-1-I2-1-FA-1-I3-1-"                         
 [4] "-1-FA-1-FA-1-NR-1-I3-1-I2-1-TR-1-"          
 [5] "-1-I2-1-"                                   
 [6] "-1-I2-1-FA-1-I2-1-"                         
 [7] "-1-I3-1-FA-1-QU-1-"                         
 [8] "-1-I2-1-I2-1-I2-1-NR-1-I2-1-I2-1-NR-1-"     
 [9] "-1-I2-1-"                                   
[10] "-1-NR-1-I3-1-QU-1-I2-1-I3-1-QU-1-NR-1-I2-1-"
[11] "-1-NR-1-QU-1-QU-1-I2-1-"
Run Code Online (Sandbox Code Playgroud)

我想使用正则表达式来检测某个子字符串在另一个子字符串之前的特定字符串,但不一定直接在另一个子字符串之前.

例如,假设我们正在寻找FA前面的内容EX.这需要1在列表中匹配.尽管FA-1-I2-1-I2-1-I2-1-自身之间和EX中,FA在之前仍然存在EX,因此比赛的预期.

如何定义通用正则表达式,以这种方式标识某些子串出现在另一个子串之前的字符串?

regex string r sequence-analysis

2
推荐指数
1
解决办法
53
查看次数