寻找从维基百科中获取的n-gram数据库

moj*_*nes 8 nlp wikipedia semantics

我正在有效地尝试解决与此问题相同的问题:

查找特定单词的相关单词(特别是物理对象)

减去单词代表物理对象的要求.答案和编辑过的问题似乎表明,使用维基百科文本作为语料库,建立一个n-gram频率列表是一个良好的开端.在我开始下载庞大的维基百科转储之前,有谁知道这样的列表是否已经存在?

PS如果上一个问题的原始海报看到这个,我很想知道你是如何解决问题的,因为你的结果看起来很棒:-)

Sha*_*men 2

Google 有一个公开可用的TB n-garam 数据库(最多 5 个)。
您可以订购 6 张 DVD,也可以找到包含该内容的 torrent。

  • 不可用于商业用途 (4认同)