我在哪里可以找到包含常见食物清单的文本列表或库?

abe*_*gal 9 python nlp nltk alchemyapi

我正在编写一个解析电子邮件的Python脚本,其中涉及搜索电子邮件的文本以查找常见食品的任何单词.我需要一些方法来确定单词是否确实是食物.

我查看了几个自然语言处理API(例如AlchemyAPI和NLTK 2.0),它们似乎有命名实体提取(这是我想要的),但我找不到特定食物的实体类型.

很有可能自然语言处理对我所需要的东西来说太过分了 - 我只想要一份我可以匹配的食物清单.我在哪里可以找到这样的单词列表?我是否需要编写自己的刮刀来解析一些在线资源,或者是否有更简单的方法?

alv*_*vas 5

将所有食品列入一个单一列表真的很不错,但遗憾的是这是理想的情况.

您可以尝试访问foodWordNet中的synset.如果您使用的是NLTK,请尝试:

>>> from nltk.corpus import wordnet as wn
>>> food = wn.synset('food.n.02')
>>> list(set([w for s in food.closure(lambda s:s.hyponyms()) for w in s.lemma_names()]))
Run Code Online (Sandbox Code Playgroud)


jrd*_*rd1 1

AFAIK,没有 NLTK 或类似食品的常见食品实体。您很可能必须为自己构建一个列表。

但是,值得庆幸的是,互联网是您的朋友,这里有一些很好的资源,涵盖了英语世界中的许多常见蔬菜和水果:

祝你好运!