手动标记带有自定义标签的训练集

abr*_*hof 5 python nltk

我想对烹饪食谱进行一些自然语言处理,特别是成分(可能稍后准备).基本上我正在寻找创建我自己的POS标签集来帮助我确定配料线的含义.

例如,如果其中一种成分是:3/4杯(轻微包装)平叶欧芹叶,分开

我希望标签能够表达所列出的成分和质量,通常是一个数字,然后是一些测量单位.例如:

3\NUM-QTY /\FRACTION4\NUM-QTY杯\ N-MEAS(轻微\ ADV包装\ VD)[平叶\ ADJ欧芹\ N]\INGREDIENT离开\ N,分割\ VD

我在这里找到的标签.

我不确定一些事情:

  1. 我应该使用自定义标签,还是应该在使用预先存在的标签器后进行某种后标记处理?
  2. 如果我确实使用自定义标签,那么制作培训文本的最佳方法是通过成分列表并手动标记所有内容吗?

我觉得这种语言处理是如此具体,以至于在适用的集合上训练标记器是有益的,但我不确定如何继续.

谢谢!

Ale*_*oks 3

使用pattern.search库。

python模式库支持许多标签[1],包括基数标签(CD)。

一旦你标记了基数,分数就是“基数/基数”或类似“基数基数/基数”之类的东西。

关于数量,您应该建立烹饪数量的分类法。python 模式库还支持词形还原[2]。

我认为使用pattern.search[2]您可以构建一个适合您的数据的约束,并使用它对文本进行模式搜索。

[1]http://www.clips.ua.ac.be/pages/mbsp-tags [2]http://www.clips.ua.ac.be/pages/pattern-search