如何将词嵌入和 pos 嵌入结合在一起来构建分类器

Wei*_*hen 3 nlp word2vec word-embedding pos

你知道的 POS 就像 'NP'、'VERB'。如何将这些功能结合到 word2vec 中?

就像下面的向量一样?

keyword    V1         V2          V3         V4            V5         V6   
corruption 0.07397  0.290874    -0.170812   0.085428     'VERB'    'NP' 
people      ..............................................................
budget      ...........................................................
Run Code Online (Sandbox Code Playgroud)

als*_*ora 6

第一个简单的解决方案是简单地将嵌入向量与一个表示 POS 标签的热编码向量连接起来。

然而,如果你想做一些更有趣的事情,你应该找到一个合适的方法来加权这些不同的功能。

例如,您可以使用 XGboost:给定一组未标准化的特征(在您的情况下为嵌入 + POS),根据特定任务为每个特征分配权重。

作为替代方案,您可以使用神经网络将这些特征组合成一个独特的有意义的隐藏表示。

假设每个单词的上下文在您的任务中都很重要,您可以执行以下操作:

  • 计算词嵌入(N维)
  • 计算 pos(1 个热编码向量)
  • 在 pos 上运行 LSTM 或类似的循环层。
  • 对于每个词,创建一个表示,由其词嵌入与 LSTM 层的相应输出连接而成。
  • 使用全连接层创建一致的隐藏表示。

PS注意循环层的使用不是强制性的,你也可以尝试直接连接pos和embedding,然后应用全连接层。