imn*_*mns 11 javascript nlp node.js
我正在为node.js 使用非常酷的自然库.
我正在尝试训练我的分类器来匹配这个短语user experience.我的问题是,如果我做这样的事情:
classifier.addDocument(['user experience'], 'ux');
Run Code Online (Sandbox Code Playgroud)
它不匹配2个单词短语,我相信因为它标记了单词.如果我做这样的事情:
classifier.addDocument(['user', 'experience'], 'ux');
Run Code Online (Sandbox Code Playgroud)
它的工作方式就像我想要的那样,但我的问题是,我不想只是匹配这个词,user因为一篇文章可以提到包括user多次这个词,它可能与用户体验无关,这将导致不准确的分类.那么,我的问题是如何使用NLP匹配2个或更多单词短语?
谢谢你的帮助提前.
你应该看看n-gram,特别是在这种情况下,它被称为二元组,一系列两个标记. https://github.com/NaturalNode/natural#bigrams
我没有使用过那个特定的库(不要认为nodejs是NLP的最佳语言,它还处于早期阶段,我建议你为NLP使用更成熟的库(NLTK)/语言(python).虽然我想这对于测试或一些小项目来说很好.
无论如何,从手册来看,你可能会做类似的事情
classifier.addDocument([['user', 'experience']], 'ux');
Run Code Online (Sandbox Code Playgroud)
为要添加的每个序列添加括号.