我想对烹饪食谱进行一些自然语言处理,特别是成分(可能稍后准备).基本上我正在寻找创建我自己的POS标签集来帮助我确定配料线的含义.
例如,如果其中一种成分是:3/4杯(轻微包装)平叶欧芹叶,分开
我希望标签能够表达所列出的成分和质量,通常是一个数字,然后是一些测量单位.例如:
3\NUM-QTY /\FRACTION4\NUM-QTY杯\ N-MEAS(轻微\ ADV包装\ VD)[平叶\ ADJ欧芹\ N]\INGREDIENT离开\ N,分割\ VD
我在这里找到的标签.
我不确定一些事情:
我觉得这种语言处理是如此具体,以至于在适用的集合上训练标记器是有益的,但我不确定如何继续.
谢谢!
使用pattern.search库。
python模式库支持许多标签[1],包括基数标签(CD)。
一旦你标记了基数,分数就是“基数/基数”或类似“基数基数/基数”之类的东西。
关于数量,您应该建立烹饪数量的分类法。python 模式库还支持词形还原[2]。
我认为使用pattern.search[2]您可以构建一个适合您的数据的约束,并使用它对文本进行模式搜索。
[1]http://www.clips.ua.ac.be/pages/mbsp-tags [2]http://www.clips.ua.ac.be/pages/pattern-search