我已经看到像BERT这样的NLP模型利用WordPiece进行令牌化。在WordPiece中,我们将令牌拆分为playingto play和##ing。提到它涵盖了范围更广的词汇外(OOV)单词。有人可以帮我解释一下WordPiece标记化实际上是如何完成的,它如何有效地处理稀有/ OOV单词?
playing
play
##ing
nlp word-embedding
nlp ×1
word-embedding ×1