标签: stanford-nlp

如何使用gensim load_word2vec_format加载预训练的手套模型?

我正在尝试将预先训练的手套作为 word2vec 模型加载到 gensim 中。我已经从这里下载了手套文件。我正在使用以下脚本:

from gensim import models
model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)
Run Code Online (Sandbox Code Playgroud)

但出现以下错误

ValueError                                Traceback (most recent call last)
<ipython-input-38-e0b48b51f433> in <module>()
      1 from gensim import models
----> 2 model = models.KeyedVectors.load_word2vec_format('glove.6B.300d.txt', binary=True)

2 frames
/usr/local/lib/python3.6/dist-packages/gensim/models/utils_any2vec.py in <genexpr>(.0)
    171     with utils.smart_open(fname) as fin:
    172         header = utils.to_unicode(fin.readline(), encoding=encoding)
--> 173         vocab_size, vector_size = (int(x) for x in header.split())  # throws for invalid file format
    174         if limit:
    175             vocab_size = min(vocab_size, limit)

ValueError: invalid literal for int() …
Run Code Online (Sandbox Code Playgroud)

stanford-nlp gensim word2vec word-embedding

3
推荐指数
1
解决办法
7084
查看次数

在斯坦福解析器中添加语言

我想用另一种尚未实现的语言使用Stanford解析器.

我查看了网站,但没有发现任何可以帮助我的东西.

我想我要做的就是"只是"创建一个新的languagePCFG.ser,但这样做呢?

此外,如果有人知道法语和西班牙语是否应该被释放?

parsing nlp stanford-nlp

2
推荐指数
1
解决办法
1577
查看次数

在命令行中使用Stanford CoreNLP时出错

我刚接触使用Java编写的程序,并且在让StanfordCoreNLP做它应该做的事情时遇到了很多麻烦.我将程序解压缩到自己的目录中,我添加了程序应该处理的XML文件.我用来在命令行中处理文件的代码是:

java -cp stanford-corenlp-YYYY-MM-DD.jar:stanford-corenlp-YYYY-MM-DD-models.jar:xom.jar:joda-time.jar -Xmx3g edu.stanford.nlp.pipeline.StanfordCoreNLP [ -props] -file.

问题是,每次我尝试运行它时,我都会收到以下错误:"无法找到或加载主类edu.stanford.nlp.pipeline.StanfordCoreNLP." 我只是不确定如何处理这个错误,并希望任何人都可以给予任何帮助.谢谢.

java stanford-nlp

2
推荐指数
1
解决办法
2246
查看次数

词汇化解析器与依赖解析器

我是NLP概念的新手,我对词汇化解析器和依赖解析器的概念有点困惑.它们是相同的,还是不同的是它们的不同之处.请帮助理解.我正在使用斯坦福解析器java包.谢谢

nlp stanford-nlp

2
推荐指数
1
解决办法
1490
查看次数

情绪评分斯坦福核心NLP

我们如何使用斯坦福核心NLP获得完整句子的情绪评分?

它将完整的句子分为正面和负面的情绪,但我们可以得到斯坦福NLP工具的总情绪分数吗?

stanford-nlp sentiment-analysis

2
推荐指数
1
解决办法
3270
查看次数

使用UIMA,Standford Core NLP

UIMA和StanfordNLP在操作流程之后产生输出,如果我们想要进行POS标记,那么在输入文本中首先进行标记化,然后进行POS标记.

我想使用UIMA的标记化,并在Standford CoreNLP的POS标记器中使用该标记.但是Standford CoreNLP的POS标签需要在POS标记之前运行标记器.

那么,是否可以在同一管道中使用不同的API?是否可以将UIMA tokenizer和Standford CoreNLP一起使用?

请帮忙.

nlp tokenize stanford-nlp uima opennlp

2
推荐指数
1
解决办法
2044
查看次数

格式化Stanford Corenlp的NER输出

我正在与Stanford CoreNLP合作并将其用于NER.但是当我提取组织名称时,我看到每个单词都用注释标记.因此,如果该实体是"纽约时报",那么它将被记录为三个不同的实体:"NEW","YORK"和"TIMES".我们可以在Stanford COreNLP中设置一个属性,以便我们可以将组合输出作为实体吗?

就像在Stanford NER中一样,当我们使用命令行实用程序时,我们可以选择输出格式为:inlineXML?我们可以以某种方式设置属性来选择Stanford CoreNLP中的输出格式吗?

stanford-nlp

2
推荐指数
1
解决办法
2107
查看次数

NLP - 标记化和标记等时出错

我想使用Stanford NLP jar文件识别所有Tokens和PartsOfSpeech Tagging.我已将所有必需的jar文件添加到项目的构建路径中.我得到的错误是..

Exception in thread "main" java.lang.UnsupportedClassVersionError: edu/stanford/nlp/pipeline/StanfordCoreNLP : Unsupported major.minor version 52.0
    at java.lang.ClassLoader.defineClass1(Native Method)
    at java.lang.ClassLoader.defineClass(Unknown Source)
    at java.security.SecureClassLoader.defineClass(Unknown Source)
    at java.net.URLClassLoader.defineClass(Unknown Source)
    at java.net.URLClassLoader.access$100(Unknown Source)
    at java.net.URLClassLoader$1.run(Unknown Source)
    at java.net.URLClassLoader$1.run(Unknown Source)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
    at java.lang.ClassLoader.loadClass(Unknown Source)
    at Test.testing(Test.java:19)
    at mainFunction.main(mainFunction.java:29)
Run Code Online (Sandbox Code Playgroud)

java nlp stanford-nlp

2
推荐指数
1
解决办法
1656
查看次数

NER模型识别印度名字

我计划使用命名实体识别(NER)技术从给定文本中识别人名(大多数是印度名称).我已经从斯坦福NLP探索了基于CRF的NER模型,但它在识别印度名称方面并不十分准确.因此,我决定通过监督培训创建我自己的自定义NER模型.我对如何使用斯坦福NER CRF创建自己的NER模型有了一个很好的想法,但是我想要避免创建一个带有手动注释的大型训练语料库,因为这对于个人而言是一种巨大的努力,其次是获得不同的人名来自印度不同的州也是一个挑战.任何人都可以建议任何自动化/程序化方法来准备一个至少有10万印度名字的标记训练语料库吗?
我已经查看了Facebook和LinkedIn API,但没有找到从给定位置(例如印度)提取100k用户全名的方法.

nlp named-entity-recognition stanford-nlp facebook-graph-api linkedin-api

2
推荐指数
2
解决办法
4916
查看次数

无法找到Stanford coreNLP中的englishSR.ser.gz

我下载了stanford-parser-full-2015-04-20.zip,stanford-corenlp-full-2015-04-20.zip但在他们两个我都找不到englishSR.ser.gz(应该位于edu/stanford/nlp/models/srparser/englishSR.ser.gz).

我在做什么问题?

java stanford-nlp

2
推荐指数
1
解决办法
1535
查看次数