小编Xin*_* Su的帖子

NLP预训练模型(例如ELMo,Bert)的数据预处理

我计划根据手头的数据(由人们键入的注释)从头开始训练ELMo或Bert模型。我现在拥有的数据都是由不同的人键入的。拼写,格式和句子不一致都存在问题。阅读ELMo和Bert的论文后,我知道这两个模型都使用了很多类似Wikipedia的句子。我还没有找到Emlo或Bert模型的任何经过处理的训练样本或任何预处理教程。我的问题是:

  • Bert和ELMo模型是否具有标准的数据预处理步骤或标准的处理数据格式?
  • 根据我现有的脏数据,是否有任何方法可以对此数据进行预处理,以使生成的单词表示更为准确?

nlp machine-learning pre-trained-model transfer-learning natural-language-processing

4
推荐指数
1
解决办法
1734
查看次数