我在哪里可以找到希伯来语停用词的列表?

Ita*_*vka 9 search-engine hebrew stop-words

我在哪里可以找到希伯来语停用词的列表?
编辑:编辑我的答案以添加更多,如果有更多...

Ita*_*vka 11

function getStopWords(){
return array(
'???',
'??',
'???',
'?????',
'???',
'???',
'??',
'??',
'???',
'???',
'???',
'???',
'???',
'???',
'????',
'????',
'????',
'????',
'????',
'??',
'??',
'??',
'???',
'???',
'???',
'???',
'???',
'????',
'????',
'??',
'???',
'???',
'???',
'???',
'????',
'???',
'???',
'??',
'??',
'???',
'??',
'??',
'???',
'??',
'???',
'???',
'???',
'????',
'???',
'????',
'????',
'??????',
'???',
'????',
'????',
'????',
'?????',
'?????',
'?????',
'?????',
'?????',
'??',
'????',
'????',
'??',
'???',
'???',
'??',
'???',
'????',
'????',
'????',
'????',
'????',
'????',
'?????',
'???',
'??',
'????',
'????',
'????',
'????',
'????',
'????',
'????',
'????',
'?????',
'?????',
'?????',
'????',
'????',
'????',
'????',
'???',
'?????',
'????',
'????',
'????',
'????',
'????',
'?????',
'?????',
'?????',
'??',
'??',
'????',
'????',
'????? ???',
'??',
'???',
'????? ???',
'???? ??',
'????',
'?????',
'???',
'????',
'????? ????',
'???',
'???? ?',
'????',
'??',
'?????',
'????',
'????',
'????? ????',
'????? ??????',
'???',
'????',
'????? ?????',
'??',
'??',
'???',
'??',
'????',
'????',
'?????',
'???',
'????',
'????',
'????',
'?????',
'??????',
'??????',
'?????',
'????',
'?????',
'??',
'??',
'????',
'???',
'???',
'??',
'???',
'???',
'??',
'??',
'??',
'???',
'???',
'??',
'??',
'???',
'????',
'???',
'?????',
'????',
'?????',
'????',
'???',
'????',
'???????',
'?????',
'????',
'????',
'??',
'????',
'????',
'???',
'???',
'???',
'??',
'??',
'??',
'???',
'???',
'???',
'????',
'???',
'????',
'??',
'????',
'??????',
'??',
'???',
'?????',
'?????',
'??',
'???',
'???',
'??',
'????',
'??',
'???',
'?????',
'???',
'??',
'???',
'?????',
'?????',
'???',
'????',
'???',
'??',
'??',
'??',
'???',
'????',
'?????',
'?????',
'???',
'??'
);
}
Run Code Online (Sandbox Code Playgroud)


dap*_*hez 6

我怀疑有一个公开可用,但作为一个简单的近似,你可以在一个相当大的语料库中创建一个非常频繁的令牌列表.然后,根据您的需要,您可以使用列表,或手动过滤,或对您的算法进行一些反复试验,看看它是如何工作的.

这是 我拥有的一个非常大的新闻语料库中100个最常见的令牌列表.请注意,出于我的目的,我将各种标点字符计为标记.数字"1"表示所有数字标记,因此它在列表中的高位置.

你可能会注意到,由于形态学和正字法,停止列表在希伯来语中是一个有问题的概念 - 一些有用的概念只是附加在单词上.