标签: nltk-book

如何处理字符之间有空格的单词？

我使用的nltk.word_tokenize是达里语.问题是我们在一个单词之间有空格.
例如,"???? ??"这意味着生命.和相同的; 我们还有很多其他的话.所有以字符结尾的单词"?"我们必须给它一个空格,否则,它可以组合起来如"??????".

任何人都可以帮助我使用[tag:regex]或任何其他方式不应该标记一个单词的一部分结束的单词"?",之后,将有该"? "字符.

python regex nltk nltk-trainer nltk-book

The*_*han

2018 10-12

7
推荐指数

1
解决办法

182
查看次数

nltk“OMW”阿拉伯语词网

我正在使用专门针对阿拉伯语的（OMW）wordnet 来开发python/nltk。所有功能都可以在英语中正常工作，但当我使用“arb”标签时，我似乎无法执行其中任何功能。唯一有效的方法是lemma_names从给定的阿拉伯语同义词集中提取 the 。

\n\n

下面的代码可以与 u'arb' 配合使用：\n输出是阿拉伯语引理列表。

\n\n

for synset in wn.synsets(u'\xd8\xb9\xd8\xa7\xd9\x85',lang=('arb')):\n    for lemma in synset.lemma_names(u'arb'):\n        print lemma\n

Run Code Online (Sandbox Code Playgroud)\n\n

当我尝试使用同义词、定义、示例、上位词执行与上面的代码相同的逻辑时，我收到一条错误消息：

\n\n

TypeError: hyponyms() takes exactly 1 argument (2 given)\n

Run Code Online (Sandbox Code Playgroud)\n\n

（如果我提供'arb'标志）或

\n\n

KeyError: u'arb'\n

Run Code Online (Sandbox Code Playgroud)\n\n

如果我编写以下代码，这是不起作用的代码之一 synset.hyponyms(u'arb')：

\n\n

for synset in wn.synsets(u'\xd8\xb9\xd8\xa7\xd9\x85',lang=('arb')):\n    for hypo in synset.hyponyms(): #print the hyponyms in English not Arabic\n        print hypo\n

Run Code Online (Sandbox Code Playgroud)\n\n

这是否意味着我无法使用 wn.all_synsets 和其他内置函数来提取所有阿拉伯语同义词集、上位词等？

python nltk wordnet python-2.7 nltk-book

use*_*286

2017 12-18

4
推荐指数

1
解决办法

2103
查看次数

标签统计

nltk ×2

nltk-book ×2

python ×2

nltk-trainer ×1

python-2.7 ×1

regex ×1

wordnet ×1

如何处理字符之间有空格的单词？

nltk“OMW”阿拉伯语词网

标签 统计

标签统计