相关疑难解决方法(0)

Wordpiece 标记化与传统词形还原？

我正在研究 NLP 预处理。在某些时候，我想实现一个上下文敏感的词嵌入，作为一种辨别词义的方式，我正在考虑使用 BERT 的输出来做到这一点。我注意到 BERT 使用 WordPiece 标记化（例如，“播放”->“播放”+“##ing”）。

现在，我使用标准分词器对文本进行预处理，该分词器在空格/一些标点符号上拆分，然后我有一个词形还原器（“播放”->“播放”）。我想知道 WordPiece 标记化与标准标记化 + 词形还原相比有什么好处。我知道 WordPiece 可以帮助解决词汇量不足的问题，但还有其他方法吗？也就是说，即使我最终没有使用 BERT，我是否应该考虑用 wordpiece tokenization 替换我的 tokenizer + lemmatizer？在什么情况下会有用？

nlp tokenize lemmatization

Kes*_*nko

2020 04-20

7
推荐指数

1
解决办法

897
查看次数

标签统计

lemmatization ×1

nlp ×1

tokenize ×1

Wordpiece 标记化与传统词形还原？

标签 统计

标签统计