BPE 与 WordPiece 标记化 - 何时使用/哪个？

Question

选择 BPE 与 WordPiece 标记化之间的一般权衡是什么？什么时候其中一个比另一个更好？两者之间的模型性能有什么差异吗？我正在寻找一个普遍的整体答案，并辅以具体的例子。谢谢！

Answer 1

与 BPE 不同，WordPiece 不会选择最常见的符号对，而是选择在添加到词汇表后使训练数据的可能性最大化的符号对。最大化训练数据的似然相当于找到一个符号对，其概率除以其第一个符号随后其第二个符号的概率是所有符号对中最大的。

\n

直观上，WordPiece 与 BPE 略有不同，因为它通过合并两个符号来评估其损失，以确保它\xe2\x80\x99s 值得。

\n

因此，WordPiece 针对给定的训练数据进行了优化。WordPiece 的词汇量较小，因此需要训练的参数也较少。收敛速度会更快。但当训练数据改变时，这可能不成立。

\n

如果您的训练数据是固定的或与新的训练数据非常相似，请选择 WordPiece。

\n

如果您的训练数据发生很大变化，请选择 BPE。

\n