我目前正在开展一个涉及句子向量的项目(来自 RoBERTa 预训练模型)。当句子很长时,这些向量的质量较低,并且我的语料库包含许多带有子句的长句子。
我一直在寻找子句提取/长句分割的方法,但令我惊讶的是,没有一个主要的 NLP 软件包(例如 spacy 或 stanza)提供开箱即用的功能。
我想这可以通过使用 spacy 或 stanza 的依赖解析来完成,但正确处理各种复杂的句子和边缘情况可能会非常复杂。
我遇到过使用 spacy实现ClausIE 信息提取系统,它可以执行类似的操作,但它尚未更新并且无法在我的计算机上运行。
我也遇到过这个用于简化句子的存储库,但是当我在本地运行它时,我收到了斯坦福 coreNLP 的注释错误。
有没有我忽略的明显的包/方法?如果没有,是否有一种简单的方法可以使用 stanza 或 spacy 来实现此目的?
我在用
\n! pip install glove_python\nRun Code Online (Sandbox Code Playgroud)\n我收到此错误消息:
\nCollecting glove_python\n Downloading https://files.pythonhosted.org/packages/3e/79/7e7e548dd9dcb741935d031117f4bed133276c2a047aadad42f1552d1771/glove_python-0.1.0.tar.gz (263kB)\n |\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88\xe2\x96\x88| 266kB 16.9MB/s \nRequirement already satisfied: numpy in /usr/local/lib/python3.7/dist-packages (from glove_python) (1.19.5)\nRequirement already satisfied: scipy in /usr/local/lib/python3.7/dist-packages (from glove_python) (1.4.1)\nBuilding wheels for collected packages: glove-python\n Building wheel for glove-python (setup.py) ... error\n **ERROR: Failed building wheel for glove-python**\n Running setup.py clean for glove-python\n **ERROR: Failed cleaning build dir for glove-python**\nFailed to build glove-python\nInstalling collected packages: glove-python\n Running setup.py install for glove-python ... error\n**ERROR: Command errored out …Run Code Online (Sandbox Code Playgroud) 说我有以下宾夕法尼亚树:
(S (NP-SBJ the steel strike)
(VP lasted
(ADVP-TMP (ADVP much longer)
(SBAR than
(S (NP-SBJ he)
(VP anticipated
(SBAR *?*))))))
.)
Run Code Online (Sandbox Code Playgroud)
什么缩略语喜欢VP和SBAR等是什么意思?我在哪里可以找到这些定义?这些缩写名称是什么?
我刚刚实现了一个在Java中使用Stanford POS标记器的程序.
我使用了几KB大小的输入文件,由几百个单词组成.我甚至将堆大小设置为600 MB.
但它仍然很慢,有时会耗尽堆内存.如何提高执行速度和内存性能?我希望能够使用几MB作为输入.
public static void postag(String args) throws ClassNotFoundException
{
try
{
File filein=new File("c://input.txt");
String content = FileUtils.readFileToString(filein);
MaxentTagger tagger = new MaxentTagger("postagging/wsj-0-18-bidirectional-distsim.tagger");
String tagged = tagger.tagString(content);
try
{
File file = new File("c://output.txt");
if (!file.exists())
{
file.createNewFile();
}
FileWriter fw = new FileWriter(file.getAbsoluteFile());
BufferedWriter bw = new BufferedWriter(fw);
bw.write("\n"+tagged);
bw.close();
}
catch (IOException e)
{
e.printStackTrace();
}
} catch (IOException e1)
{
e1.printStackTrace();
}
}
Run Code Online (Sandbox Code Playgroud) 我正在做一个需要做一些自然语言处理的项目。我为此目的使用了stanford MaxEnt 分类器。但我不确定,最大熵模型和逻辑回归是同一个还是某种特殊的逻辑回归?
任何人都可以提出一个解释吗?
问:我试图让一个完整的句子变得紧张,只是不知道如何使用nlp.任何帮助赞赏.
Q2.使用nlp可以从句子中提取所有信息吗?
目前我可以,我得到:1.句子的声音2.subject对象动词3.POS标签.
更多信息可以提取,请告诉我.
使用NLTK的StanfordParser,我可以解析这样一句话:
os.environ['STANFORD_PARSER'] = 'C:\jars'
os.environ['STANFORD_MODELS'] = 'C:\jars'
os.environ['JAVAHOME'] ='C:\ProgramData\Oracle\Java\javapath'
parser = stanford.StanfordParser(model_path="C:\jars\englishPCFG.ser.gz")
sentences = parser.parse(("bring me a red ball",))
for sentence in sentences:
sentence
Run Code Online (Sandbox Code Playgroud)
结果是:
Tree('ROOT', [Tree('S', [Tree('VP', [Tree('VB', ['Bring']),
Tree('NP', [Tree('DT', ['a']), Tree('NN', ['red'])]), Tree('NP',
[Tree('NN', ['ball'])])]), Tree('.', ['.'])])])
Run Code Online (Sandbox Code Playgroud)
除了上图之外,我如何使用Stanford解析器获取类型化的依赖项?就像是:
我有这个文字
"嗨,Sam D. Richards先生住在这里,44 West 22nd Street,New York,NY 12345.你现在可以联系他吗?如果您需要帮助,请致电12345678'''
.如何使用NLTK从上面的文本中提取地址部分?我试过了Stanford NER Tagger,这只给我一个New York位置.怎么解决这个?
给定以下句子,例如:
A cat is on a bed.
The color of the cat is brown.
The bed is small.
Run Code Online (Sandbox Code Playgroud)
有没有办法将句子组合/总结成一个句子,例如:
A brown cat is on a small bed.
Run Code Online (Sandbox Code Playgroud)
我不了解摘要提取/生成,但是否有希望将其用于此目的?
我的数据集结构如下:
产品1 - 句子1
产品2 - 句子2
产品3 - 句子3
..
等等
句子看起来像这样:
产品1 - "我们建议你穿这款时尚单品,搭配金色吊坠耳环,churidar紧身裤和平底鞋,打造低调的外观."
一个可能的问题是 - "我们建议你穿这款时尚单品搭配金色吊坠耳环,churidar紧身裤和平底鞋,以完成低调的外观吗?" - 这就是我使用http://www.cs.cmu.edu/~ark/mheilman/questions/
问:我怎样才能看到低调的样子?
问:金色吊坠耳环可以穿什么?
问:什么能让我看到churidar紧身裤的完整外观?
所以,我觉得我想要做的是 - 在语境中创建一个语义正确的推杆产品中的名词/专有名词和形容词的子问题.
stanford-nlp ×10
nlp ×8
python ×4
nltk ×3
java ×2
heuristics ×1
linguistics ×1
parsing ×1
pip ×1
pos-tagger ×1
spacy ×1
summary ×1