Xin*_* Su 4 nlp machine-learning pre-trained-model transfer-learning natural-language-processing
我计划根据手头的数据(由人们键入的注释)从头开始训练ELMo或Bert模型。我现在拥有的数据都是由不同的人键入的。拼写,格式和句子不一致都存在问题。阅读ELMo和Bert的论文后,我知道这两个模型都使用了很多类似Wikipedia的句子。我还没有找到Emlo或Bert模型的任何经过处理的训练样本或任何预处理教程。我的问题是:
Bert使用WordPiece嵌入,在某种程度上有助于处理脏数据。 https://github.com/google/sentencepiece
Google-Research还在其代码中提供数据预处理。 https://github.com/google-research/bert/blob/master/tokenization.py
默认的Elmo实现将令牌作为输出(如果您提供未令牌化的字符串,它将在空格处分割它)。因此,拼写校正,重复数据删除,词形化(例如,在spacy https://spacy.io/api/lemmatizer中),将标记与标点分离以及其他标准预处理方法可能会有所帮助。
您可以检查NLTK软件包中预处理文本的标准方法。 https://www.nltk.org/api/nltk.tokenize.html(例如Twitter令牌生成器)。(请注意,NLTK本身很慢)。许多机器学习库提供了它们的基本预处理(https://github.com/facebookresearch/pytext https://keras.io/preprocessing/text/)
您还可以尝试进行实验,并为输入提供bpe编码或字符n-gram。
它还取决于您拥有的数据量。您拥有的数据越多,预处理的好处就越少(我认为)。考虑到您想从头开始训练Elmo或Bert,您应该有很多数据。
| 归档时间: |
|
| 查看次数: |
1734 次 |
| 最近记录: |