在斯坦福依赖手册中,他们提到了“斯坦福类型依赖”,特别是“neg”类型 - 否定修饰符。当使用网站使用斯坦福增强++解析器时,它也可用。例如,句子:
“巴拉克奥巴马不是出生在夏威夷”
解析器确实找到了 neg(born,not)
但是当我使用stanfordnlp
python 库时,我能得到的唯一依赖解析器将解析句子如下:
('Barack', '5', 'nsubj:pass')
('Obama', '1', 'flat')
('was', '5', 'aux:pass')
('not', '5', 'advmod')
('born', '0', 'root')
('in', '7', 'case')
('Hawaii', '5', 'obl')
Run Code Online (Sandbox Code Playgroud)
以及生成它的代码:
import stanfordnlp
stanfordnlp.download('en')
nlp = stanfordnlp.Pipeline()
doc = nlp("Barack Obama was not born in Hawaii")
a = doc.sentences[0]
a.print_dependencies()
Run Code Online (Sandbox Code Playgroud)
有没有办法获得与增强型依赖解析器或任何其他导致类型化依赖的斯坦福解析器类似的结果,这会给我否定修饰符?
我有一个创建时间戳和结束时间戳的列表,我想获得从创建到结束的最后秒数.没有使用UNIX时间戳(我目前没有)时无法找到任何方法.
类似的东西:
DATEDIFF( '第二',分钟(CREATION_TIME),最大值(ENDING_TIME))
creation_time ='2017-03-20 10:55:00'..
我已经在非常短的句子(最多 10 个单词)的语料库上使用 Gensim 训练了 fasttext 模型。我知道我的测试集包括不在我的训练语料库中的词,即我的语料库中的一些词像“催产素”、“Lexitocin”、“Ematrophin”、“Betaxitocin”
给定测试集中的一个新词,fasttext 非常清楚地知道通过使用字符级别 n-gram 生成一个与训练集中其他相似词具有高余弦相似度的向量
如何将 fasttext 模型合并到 LSTM keras 网络中,而不会丢失 fasttext 模型到词汇表中的向量列表?因为那样的话,即使 fasttext 做得很好,我也不会处理任何 OOV。
任何的想法?
使用 pytorch 的 torchtext 构建文本分类模型。词汇表对象位于 data.field 中:
\n\ndef create_tabularDataset_object(self,csv_path):\n self.TEXT = data.Field(tokenize=self.tokenizer,batch_first=True,include_lengths=True)\n self.LABEL = data.LabelField(dtype = torch.float,batch_first=True)\n
Run Code Online (Sandbox Code Playgroud)\n\ndef get_vocab_with_glov(self,data):\n # initialize glove embeddings\n self.TEXT.build_vocab(data,min_freq=100,vectors = "glove.6B.100d")\n
Run Code Online (Sandbox Code Playgroud)\n\n训练后,在生产中提供模型时,我如何保存 TEXT 对象?在预测时我需要它来索引单词标记
\n\n[TEXT.vocab.stoi[t] for t in tokenized\xd7\x81_sentence]\n
Run Code Online (Sandbox Code Playgroud)\n\n我是否遗漏了一些东西并且没有必要握住该物体?除了模型权重之外,我还需要其他文件吗?
\nnlp ×2
python ×2
gensim ×1
keras ×1
parsing ×1
presto ×1
pytorch ×1
stanford-nlp ×1
tensorflow ×1
torchtext ×1