dfr*_*kow 6 grammar text-mining
这个答案显示了一个使用解析器生成器查看文本以查找某些感兴趣模式的漂亮示例。在那个例子中,它是产品价格。
有谁知道在给定训练示例(我想要的文档 + 信息)的情况下生成语法的工具?我找到了几篇论文,但没有找到工具。我浏览了ANTLR文档,但它涉及语法;“识别器”将语法作为输入,而不是训练示例。
这是一个机器学习问题。您最多只能得到一个近似值。但我认为没有人在这方面做得很好,更不用说发布工具了。(我积极跟踪人们为计算机语言构建语法所做的工作,这个想法已经被提出很多次,但我还没有看到有用的实现)。
问题在于,对于任何固定的示例集,都存在大量可能的语法。构建一个简单的语法很容易:对于一组固定的示例,只需提出一种语法,该语法具有一个规则来识别每个示例。这可行,但几乎没有帮助。现在的问题是,你可以用多少种方法来概括这一点,哪一种是最好的?事实上你无法知道,因为你的下一个新示例在结构方面可能会完全令人惊讶。(理论定义:语言是组成它的句子的集合)。
我们甚至还没有讨论学习语言词位这个更简单的问题。您建议如何了解浮点数的合法字符串是什么?