标签: stanford-nlp

python中的子句提取/长句分割

我目前正在开展一个涉及句子向量的项目(来自 RoBERTa 预训练模型)。当句子很长时,这些向量的质量较低,并且我的语料库包含许多带有子句的长句子。

我一直在寻找子句提取/长句分割的方法,但令我惊讶的是,没有一个主要的 NLP 软件包(例如 spacy 或 stanza)提供开箱即用的功能。

我想这可以通过使用 spacy 或 stanza 的依赖解析来完成,但正确处理各种复杂的句子和边缘情况可能会非常复杂。

我遇到过使用 spacy实现ClausIE 信息提取系统,它可以执行类似的操作,但它尚未更新并且无法在我的计算机上运行。

我也遇到过这个用于简化句子的存储库,但是当我在本地运行它时,我收到了斯坦福 coreNLP 的注释错误。

有没有我忽略的明显的包/方法?如果没有,是否有一种简单的方法可以使用 stanza 或 spacy 来实现此目的?

python nlp stanford-nlp spacy bert-language-model

9
推荐指数
1
解决办法
6586
查看次数

Google colab Glove_Python pip 安装不起作用

我在用

\n
! pip install glove_python\n
Run Code Online (Sandbox Code Playgroud)\n

我收到此错误消息:

\n
Collecting glove_python\n  Downloading https://files.pythonhosted.org/packages/3e/79/7e7e548dd9dcb741935d031117f4bed133276c2a047aadad42f1552d1771/glove_python-0.1.0.tar.gz (263kB)\n     |\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88| 266kB 16.9MB/s \nRequirement already satisfied: numpy in /usr/local/lib/python3.7/dist-packages (from glove_python) (1.19.5)\nRequirement already satisfied: scipy in /usr/local/lib/python3.7/dist-packages (from glove_python) (1.4.1)\nBuilding wheels for collected packages: glove-python\n  Building wheel for glove-python (setup.py) ... error\n  **ERROR: Failed building wheel for glove-python**\n  Running setup.py clean for glove-python\n  **ERROR: Failed cleaning build dir for glove-python**\nFailed to build glove-python\nInstalling collected packages: glove-python\n    Running setup.py install for glove-python ... error\n**ERROR: Command errored out …
Run Code Online (Sandbox Code Playgroud)

python pip stanford-nlp google-colaboratory

9
推荐指数
1
解决办法
8283
查看次数

POS标签等中的缩写是什么意思?

说我有以下宾夕法尼亚树:

(S (NP-SBJ the steel strike)
 (VP lasted
     (ADVP-TMP (ADVP much longer)
               (SBAR than
                     (S (NP-SBJ he)
                        (VP anticipated
                            (SBAR *?*))))))
 .)
Run Code Online (Sandbox Code Playgroud)

什么缩略语喜欢VPSBAR等是什么意思?我在哪里可以找到这些定义?这些缩写名称是什么?

language-agnostic nlp stanford-nlp

8
推荐指数
1
解决办法
3092
查看次数

提高基于Stanford-tagger程序的性能

我刚刚实现了一个在Java中使用Stanford POS标记器的程序.

我使用了几KB大小的输入文件,由几百个单词组成.我甚至将堆大小设置为600 MB.

但它仍然很慢,有时会耗尽堆内存.如何提高执行速度和内存性能?我希望能够使用几MB作为输入.

  public static void postag(String args) throws ClassNotFoundException

  {

     try

     {

     File filein=new File("c://input.txt");

     String content = FileUtils.readFileToString(filein);

     MaxentTagger tagger = new MaxentTagger("postagging/wsj-0-18-bidirectional-distsim.tagger");

     String tagged = tagger.tagString(content);

        try 
        {
            File file = new File("c://output.txt");
            if (!file.exists()) 
            {
                file.createNewFile();
            } 

            FileWriter fw = new FileWriter(file.getAbsoluteFile());
            BufferedWriter bw = new BufferedWriter(fw);
            bw.write("\n"+tagged);
            bw.close();

            }
              catch (IOException e) 
              {
                    e.printStackTrace();
               }

     } catch (IOException e1)
     {
         e1.printStackTrace();
     }

 }
Run Code Online (Sandbox Code Playgroud)

java nlp pos-tagger stanford-nlp

8
推荐指数
1
解决办法
601
查看次数

最大熵模型和逻辑回归

我正在做一个需要做一些自然语言处理的项目。我为此目的使用了stanford MaxEnt 分类器。但我不确定,最大熵模型和逻辑回归是同一个还是某种特殊的逻辑回归?

任何人都可以提出一个解释吗?

nlp machine-learning stanford-nlp logistic-regression

8
推荐指数
2
解决办法
5273
查看次数

使用stanford nlp查找句子的时态

问:我试图让一个完整的句子变得紧张,只是不知道如何使用nlp.任何帮助赞赏.

Q2.使用nlp可以从句子中提取所有信息吗?

目前我可以,我得到:1.句子的声音2.subject对象动词3.POS标签.

更多信息可以提取,请告诉我.

nlp linguistics stanford-nlp

8
推荐指数
1
解决办法
7438
查看次数

使用StanfordParser从解析的句子中获取类型化的依赖项

使用NLTK的StanfordParser,我可以解析这样一句话:

os.environ['STANFORD_PARSER'] = 'C:\jars' 
os.environ['STANFORD_MODELS'] = 'C:\jars'  
os.environ['JAVAHOME'] ='C:\ProgramData\Oracle\Java\javapath' 
parser = stanford.StanfordParser(model_path="C:\jars\englishPCFG.ser.gz")
sentences = parser.parse(("bring me a red ball",)) 
for sentence in sentences:
    sentence    
Run Code Online (Sandbox Code Playgroud)

结果是:

Tree('ROOT', [Tree('S', [Tree('VP', [Tree('VB', ['Bring']),
Tree('NP', [Tree('DT', ['a']), Tree('NN', ['red'])]), Tree('NP',
[Tree('NN', ['ball'])])]), Tree('.', ['.'])])])
Run Code Online (Sandbox Code Playgroud)

除了上图之外,我如何使用Stanford解析器获取类型化的依赖项?就像是:

  1. root(ROOT-0,带-1)
  2. iobj(带-1,我-2)
  3. det(ball-5,a-3)
  4. amod(ball-5,red-4)
  5. dobj(带-1,球-5)

python parsing nlp nltk stanford-nlp

8
推荐指数
1
解决办法
1816
查看次数

如何在python中使用NLTK从原始文本中提取地址?

我有这个文字

"嗨,Sam D. Richards先生住在这里,44 West 22nd Street,New York,NY 12345.你现在可以联系他吗?如果您需要帮助,请致电12345678'''

.如何使用NLTK从上面的文本中提取地址部分?我试过了Stanford NER Tagger,这只给我一个New York位置.怎么解决这个?

python nltk stanford-nlp

8
推荐指数
2
解决办法
6143
查看次数

将多个句子合并为一个句子

给定以下句子,例如:

A cat is on a bed.
The color of the cat is brown.
The bed is small.
Run Code Online (Sandbox Code Playgroud)

有没有办法将句子组合/总结成一个句子,例如:

A brown cat is on a small bed.
Run Code Online (Sandbox Code Playgroud)

我不了解摘要提取/生成,但是否有希望将其用于此目的?

nlp summary nltk stanford-nlp

8
推荐指数
1
解决办法
2334
查看次数

子句上的QA生成 - NLP

我的数据集结构如下:

产品1 - 句子1

产品2 - 句子2

产品3 - 句子3

..

等等

句子看起来像这样:

产品1 - "我们建议你穿这款时尚单品,搭配金色吊坠耳环,churidar紧身裤和平底鞋,打造低调的外观."

一个可能的问题是 - "我们建议你穿这款时尚单品搭配金色吊坠耳环,churidar紧身裤和平底鞋,以完成低调的外观吗?" - 这就是我使用http://www.cs.cmu.edu/~ark/mheilman/questions/

但是,我想要这样的问题/答案:

问:我怎样才能看到低调的样子?

答:您可以尝试使用Product1来获得低调的外观.

问:金色吊坠耳环可以穿什么?

答:你可以穿着带有金色吊坠耳环的Product1.

问:什么能让我看到churidar紧身裤的完整外观?

答:产品1会.

所以,我觉得我想要做的是 - 在语境中创建一个语义正确的推杆产品中的名词/专有名词和形容词的子问题.

java nlp heuristics stanford-nlp

8
推荐指数
1
解决办法
203
查看次数