Wordpiece 标记化与传统词形还原?

Kes*_*nko 7 nlp tokenize lemmatization

我正在研究 NLP 预处理。在某些时候,我想实现一个上下文敏感的词嵌入,作为一种辨别词义的方式,我正在考虑使用 BERT 的输出来做到这一点。我注意到 BERT 使用 WordPiece 标记化(例如,“播放”->“播放”+“##ing”)。

现在,我使用标准分词器对文本进行预处理,该分词器在空格/一些标点符号上拆分,然后我有一个词形还原器(“播放”->“播放”)。我想知道 WordPiece 标记化与标准标记化 + 词形还原相比有什么好处。我知道 WordPiece 可以帮助解决词汇量不足的问题,但还有其他方法吗?也就是说,即使我最终没有使用 BERT,我是否应该考虑用 wordpiece tokenization 替换我的 tokenizer + lemmatizer?在什么情况下会有用?

Ash*_*'Sa 6

word-piece tokenization 在很多方面都有帮助,应该比 lemmatizer 更好。由于多种原因:

  1. 如果你有单词“playful”、“playing”、“played”,被词形还原为“play”,它可能会丢失一些信息,例如playing现在时和played过去时,这不会发生在单词-片标记化。
  2. 词片标记涵盖了所有的词,甚至是字典中没有出现的词。它拆分单词并且会有词块标记,这样,您应该对拆分的词块进行嵌入,这与删除单词或替换为“未知”标记不同。

使用词块分词代替分词器+词形还原器只是一种设计选择,词块分词应该表现良好。但是您可能必须考虑计数,因为词块标记化会增加标记的数量,而词形还原并非如此。

  • 我不知道 TF-IDF,因为我从未使用过它。非常遗憾。 (2认同)