POS标签用德语

Joh*_*ier 24 python nlp nltk

我使用NLTK从文本字符串中提取名词,从以下命令开始:

tagged_text = nltk.pos_tag(nltk.Text(nltk.word_tokenize(some_string)))
Run Code Online (Sandbox Code Playgroud)

它在英语中运行良好.还有一种简单的方法可以让它适用于德语吗?

(我没有自然语言编程的经验,但我设法使用到目前为止很棒的python nltk库.)

Mik*_*las 22

自然语言软件通过利用语料库及其提供的统计数据来发挥其神奇功效.你需要告诉nltk一些德语语料库来帮助它正确地标记德语.我相信EUROPARL语料库可能会帮助您前进.

有关示例配置,请参阅nltk.corpus.europarl_raw此答案.

另外,请考虑使用"nlp"标记此问题.

  • 使用`europarl_raw`模块,您只能训练一个标记器而不是一个POS标记器,因为语料库不是POS标记的. (4认同)
  • +1击败我;-),也感谢关于标记问题本身的提示. (2认同)

Suz*_*ana 12

模式库包括用于解析德国句子的功能和结果中包含部分的语音标签.从他们的文档中复制以下内容:

from pattern.de import parse, split
s = parse('Die Katze liegt auf der Matte.')
s = split(s)
print s.sentences[0]

>>>   Sentence('Die/DT/B-NP/O Katze/NN/I-NP/O liegt/VB/B-VP/O'
     'auf/IN/B-PP/B-PNP der/DT/B-NP/I-PNP Matte/NN/I-NP/I-PNP ././O/O')
Run Code Online (Sandbox Code Playgroud)

如果您更喜欢SSTS标记集,则可以设置可选参数tagset="STTS".