小编Jon*_*Jon的帖子

原始数据中的模式发现

我正在寻找构建一种算法来发现原始数据(非 ASCII)中的重复模式。

可配置的最短和最大图案尺寸。要搜索的数据大小将达到数万字节。

例如,给定以下数据:

AB CD 01 AB CD 02 EF 03 02 EF 04 02 EF
Run Code Online (Sandbox Code Playgroud)

将输出遇到重复模式的次数。在这种情况下:

ABCD x2
02EF x3
Run Code Online (Sandbox Code Playgroud)

我看过几种算法,例如后缀树,但通常似乎是基于字符串的。

这将用 Python 编写,但我对所涉及的概念而不是实际实现更感兴趣。

非常感谢您的帮助。

algorithm sequence pattern-matching repeat

4
推荐指数
1
解决办法
1557
查看次数

标签 统计

algorithm ×1

pattern-matching ×1

repeat ×1

sequence ×1