用于从标记数据集中提取正则表达式的技术

Question

假设我有一个数十万个字符串的数据集(恰好是自然语言句子,如果重要的话),每个字符串都标记有一个"标签".每个句子都标记有一个标签,并且大约有10个标签,每个标签大约有10%的数据集属于它们.标签内的句子结构具有高度的相似性.

我知道上面的声音听起来像机器学习问题的经典例子,但我想问一个稍微不同的问题.是否有任何已知的技术以编程方式为每个标签生成一组正则表达式,这些技术可以成功地对训练数据进行分类,同时仍然可以推广到未来的测试数据？

我对参考文献非常满意; 我意识到这不是一个简单的算法:)

PS:我知道分类的常用方法是使用机器学习技术,如SVM等.但是,我明确地寻找一种生成正则表达式的方法.(我会很高兴使用机器学习技术来生成正则表达式,而不是机器学习技术来进行分类本身!)

Answer 1

据我所知，这是当前进化计算研究的主题。

这里有些例子：

请参阅幻灯片 40-44：

另请参阅

对 GECCO 2012 上提出的系统进行更详细的审查。