小编Xin*_* Su的帖子

NLP预训练模型（例如ELMo，Bert）的数据预处理

我计划根据手头的数据（由人们键入的注释）从头开始训练ELMo或Bert模型。我现在拥有的数据都是由不同的人键入的。拼写，格式和句子不一致都存在问题。阅读ELMo和Bert的论文后，我知道这两个模型都使用了很多类似Wikipedia的句子。我还没有找到Emlo或Bert模型的任何经过处理的训练样本或任何预处理教程。我的问题是：