sma*_*ish 9 nlp stanford-nlp unsupervised-learning supervised-learning
根据我的理解,远程监督是指定一个段落(通常是一个句子)的单个词试图传达的概念的过程.
例如,数据库维护结构化关系 concerns( NLP, this sentence).
我们的远程监督系统将把句子作为输入: "This is a sentence about NLP."
基于这句话会认识到实体,因为作为一个预处理步骤判决将已通过命名实体识别通过,NLP及this sentence.
由于我们的数据库具有它NLP并且this sentence通过concern(s)它的关系相关联,因此将输入句子识别为表达关系Concerns(NLP, this sentence).
我的问题有两个:
1)有什么用?是不是以后我们的系统可能会在"狂野"中看到一个句子,That sentence is about OPP并且意识到它看起来与以前的类似,从而实现了这样的新颖关系concerns(OPP, that sentence).,仅仅基于单词/个体标记?
2)是否考虑了句子的实际用语?动词'是'和副词'关于',例如,实现(通过WordNet或其他一些下位系统),这在某种程度上类似于高阶概念"关注"?
有没有人有一些代码用于生成我可以看到的远程监控系统,即交叉引用KB的系统(如Freebase)和语料库(如NYTimes),并生成远程监管数据库?我认为这将有助于澄清我对远程监督的看法.
RE 1)是的,这是完全正确的.最后,我们想要的是一个分类器,它在文本中作为输入文本和一对实体提及,并告诉我们该句子中这些实体之间的关系.远程监督是使用已知知识库中的"远程监督"来模拟此训练数据的一种方式.但是,最终目标与大多数机器学习任务相同:概括为新句子.
RE 2)当然!远程监督仅适用于训练数据的生成方式[1].一旦你假设了远程监督,你剩下的就是(句子,relation_for_sentence)对的语料库,然后你提取句子上所有常用的NLP特征.
[1]对于第一近似 - 存在"远程监督"模型(如MultiR和MIML-RE),它们不直接生成假训练数据,而是间接地将监督纳入训练过程本身.但是,即使在这些中,潜变量模型中也有一个因子相当于每个句子的分类,而且只是输出变量是潜在的而不是像香草远程监督那样天真地"观察".
根据我现在的理解——远程监督的真正价值在于我们可以用它来注释一个大的语料库,而不必手动考虑每个句子——因为这在人时方面是非常昂贵的——所以最后一些公认的句子中的关系将是错误的 - 但它会是 - 希望“相当好”......这很有用 - 在某些应用程序中,例如......学术界互相竞争,试图在这个愚蠢的任务上获得稍微好一点的分数,并且...... . 其他诸如...(欢迎举例)
| 归档时间: |
|
| 查看次数: |
8911 次 |
| 最近记录: |