我使用的nltk.word_tokenize是达里语.问题是我们在一个单词之间有空格.
例如,"???? ??"这意味着生命.和相同的; 我们还有很多其他的话.所有以字符结尾的单词"?"我们必须给它一个空格,否则,它可以组合起来如"??????".
任何人都可以帮助我使用[tag:regex]或任何其他方式不应该标记一个单词的一部分结束的单词"?",之后,将有该"? "字符.
我正在使用专门针对阿拉伯语的(OMW)wordnet 来开发python/nltk。所有功能都可以在英语中正常工作,但当我使用“arb”标签时,我似乎无法执行其中任何功能。唯一有效的方法是lemma_names从给定的阿拉伯语同义词集中提取 the 。
下面的代码可以与 u'arb' 配合使用:\n输出是阿拉伯语引理列表。
\n\nfor synset in wn.synsets(u'\xd8\xb9\xd8\xa7\xd9\x85',lang=('arb')):\n for lemma in synset.lemma_names(u'arb'):\n print lemma\nRun Code Online (Sandbox Code Playgroud)\n\n当我尝试使用同义词、定义、示例、上位词执行与上面的代码相同的逻辑时,我收到一条错误消息:
\n\nTypeError: hyponyms() takes exactly 1 argument (2 given)\nRun Code Online (Sandbox Code Playgroud)\n\n(如果我提供'arb'标志)或
KeyError: u'arb'\nRun Code Online (Sandbox Code Playgroud)\n\n如果我编写以下代码,这是不起作用的代码之一 synset.hyponyms(u'arb'):
for synset in wn.synsets(u'\xd8\xb9\xd8\xa7\xd9\x85',lang=('arb')):\n for hypo in synset.hyponyms(): #print the hyponyms in English not Arabic\n print hypo\nRun Code Online (Sandbox Code Playgroud)\n\n这是否意味着我无法使用 wn.all_synsets 和其他内置函数来提取所有阿拉伯语同义词集、上位词等?
\n