相关疑难解决方法(0)

用于生成真实单词的词干算法

我需要一段文字并从中提取一个"标签"列表.其中大部分都很直接.但是我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区

我已经使用了Porter Stemmer算法的实现(顺便说一下我在PHP中编写):

http://tartarus.org/~martin/PorterStemmer/php.txt

这可以达到一定程度,但不会返回"真实"的单词.上面的例子被称为"commun".

我尝试过"Snowball"(在另一个Stack Overflow线程中建议).

http://snowball.tartarus.org/demo.php

对于我的例子(社区/社区),Snowball源于"社交".

有没有其他干扰算法可以做到这一点?还有其他人解决了这个问题吗?

我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短词是要显示的实际词.

php nlp stemming snowball porter-stemmer

36
推荐指数
3
解决办法
3万
查看次数

stanford nlp核心出错

我下载了stanford nlp,当我运行他们网站上给出的代码时.

我在这一行中收到错误:

     StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
Run Code Online (Sandbox Code Playgroud)

错误如下:

     Exception in thread "main" java.lang.NoClassDefFoundError: nu/xom/Node
    at sample1.main(sample1.java:35)
    Caused by: java.lang.ClassNotFoundException: nu.xom.Node
    at java.net.URLClassLoader$1.run(Unknown Source)
    at java.net.URLClassLoader$1.run(Unknown Source)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    ... 1 more
Run Code Online (Sandbox Code Playgroud)

我使用eclipse,我应该做一些配置吗?请帮帮我!

java stanford-nlp

5
推荐指数
1
解决办法
8117
查看次数

标签 统计

java ×1

nlp ×1

php ×1

porter-stemmer ×1

snowball ×1

stanford-nlp ×1

stemming ×1