我计划根据手头的数据(由人们键入的注释)从头开始训练ELMo或Bert模型。我现在拥有的数据都是由不同的人键入的。拼写,格式和句子不一致都存在问题。阅读ELMo和Bert的论文后,我知道这两个模型都使用了很多类似Wikipedia的句子。我还没有找到Emlo或Bert模型的任何经过处理的训练样本或任何预处理教程。我的问题是:
nlp machine-learning pre-trained-model transfer-learning natural-language-processing
machine-learning ×1
natural-language-processing ×1
nlp ×1
pre-trained-model ×1
transfer-learning ×1