Adr*_*scu 7 regex algorithm nlp machine-learning
假设我有一个数十万个字符串的数据集(恰好是自然语言句子,如果重要的话),每个字符串都标记有一个"标签".每个句子都标记有一个标签,并且大约有10个标签,每个标签大约有10%的数据集属于它们.标签内的句子结构具有高度的相似性.
我知道上面的声音听起来像机器学习问题的经典例子,但我想问一个稍微不同的问题.是否有任何已知的技术以编程方式为每个标签生成一组正则表达式,这些技术可以成功地对训练数据进行分类,同时仍然可以推广到未来的测试数据?
我对参考文献非常满意; 我意识到这不是一个简单的算法:)
PS:我知道分类的常用方法是使用机器学习技术,如SVM等.但是,我明确地寻找一种生成正则表达式的方法.(我会很高兴使用机器学习技术来生成正则表达式,而不是机器学习技术来进行分类本身!)
小智 1
据我所知,这是当前进化计算研究的主题。
这里有些例子:
请参阅幻灯片 40-44:
https://cs.byu.edu/sites/default/files/Ken_De_Jong_slides.pdf (幻灯片在发布此答案时已存在)。
另请参阅
http://www.citeulike.org/user/bartolialberto/article/10710768
对 GECCO 2012 上提出的系统进行更详细的审查。