从句子中提取关系概念

Question

从句子中提取关系概念

Mic*_*Sun 5 nlp information-extraction word2vec word-embedding relation-extraction

是否有当前模型，或者我如何训练一个模型，该模型采用涉及两个主题的句子，例如：

[减数分裂]是[细胞分裂]的一种...

并决定一个是另一个的子概念还是父概念？在这种情况下，细胞分裂是减数分裂的母体。

Answer 1

Dav*_*sta 2

主语是否已经确定，即您是否事先知道每个句子中哪些单词或单词序列代表主语？如果你这样做，我认为你正在寻找的是关系提取。

无监督方法

一种简单的无监督方法是使用词性标签寻找模式，例如：

首先，对每个句子进行标记并获取 PoS 标签：

sentence = "Meiosis is a type of cell division." tokens = nltk.word_tokenize("Meiosis is a type of cell division.") tokens ['Meiosis', 'is', 'a', 'type', 'of', 'cell', 'division', '.'] token_pos = nltk.pos_tag(tokens) token_pos [('Meiosis', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('type', 'NN'), ('of', 'IN'), ('cell', 'NN'), ('division', 'NN'), ('.', '.')]
Run Code Online (Sandbox Code Playgroud)
然后构建一个解析器，以解析基于 PoS 标签的特定模式，这是一种调解两个主题/实体/名词之间关系的模式：

verb = "<VB|VBD|VBG|VBN|VBP|VBZ>*<RB|RBR|RBS>*" word = "<NN|NNS|NNP|NNPS|JJ|JJR|JJS|RB|WP>" preposition = "<IN>" rel_pattern = "({}|{}{}|{}{}*{})+ ".format(verb, verb, preposition, verb, word, preposition) grammar_long = '''REL_PHRASE: {%s}''' % rel_pattern reverb_pattern = nltk.RegexpParser(grammar_long)
Run Code Online (Sandbox Code Playgroud)
注意：此模式基于本文：http://www.aclweb.org/anthology/D11-1142

然后，您可以将解析器应用于除主题/实体之外的所有令牌/PoS 标签：

reverb_pattern.parse(token_pos[1:5]) Tree('S', [Tree('REL_PHRASE', [('is', 'VBZ')]), ('a', 'DT'), ('type', 'NN'), ('of', 'IN')])
Run Code Online (Sandbox Code Playgroud)
如果解析器输出 REL_PHRASE，则表明两个主题之间存在关系。然后，您需要分析所有这些模式并确定哪些模式代表parent-of关系。例如，实现这一目标的一种方法是将它们聚类。

监督方法

如果您的句子已经用主题/实体和关系类型（即监督场景）进行了标记，那么您可以构建一个模型，其中特征可以是两个主题/实体之间的单词以及标签的关系类型。

sent: "[Meiosis] is a type of [cell division.]" label: parent of
Run Code Online (Sandbox Code Playgroud)
您可以构建的向量表示is a type of，并训练分类器来预测标签parent of。为此，您将需要许多示例，这还取决于您有多少个不同的类/标签。

归档时间：	6 年，11 月前
查看次数：	273 次
最近记录：	2 年，10 月前