Ash*_*bal 5 python nlp named-entity-recognition data-science huggingface-transformers
一段时间以来,我一直在使用HuggingFace对 MADE 1.0 数据集使用 Google BERT的PyTorch实现。直到上次(2 月 11 日),我一直在使用该库,通过对模型进行微调,我的命名实体识别任务的F-Score为0.81。但是本周,当我运行之前编译和运行的完全相同的代码时,它在执行此语句时抛出了一个错误:
input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
Run Code Online (Sandbox Code Playgroud)
ValueError:令牌索引序列长度长于此 BERT 模型指定的最大序列长度 (632 > 512)。通过 BERT 运行此序列将导致索引错误
此colab notebook 中提供了完整代码。
为了解决这个错误,我通过获取任何序列的前 512 个标记并将 [SEP] 的索引添加到 BERT 要求的截断/填充序列的末尾进行了必要的更改,将上述语句修改为以下语句。
input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt[:512]) for txt in tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")
Run Code Online (Sandbox Code Playgroud)
结果不应该改变,因为我只考虑序列中的前 512 个标记,然后将其截断为 75 作为我的 (MAX_LEN=75),但我的F-Score已降至0.40,精度降至0.27,而Recall仍然是相同(0.85)。我无法共享数据集,因为我已经签署了保密条款,但我可以保证 BERT 要求的所有预处理都已完成,并且所有扩展令牌(如 (Johanson --> Johan ##son) 都已用 X 标记并替换)后来按照BERT论文中所说的预测。
有没有其他人遇到过类似的问题,或者可以详细说明可能是什么问题,或者 PyTorch(拥抱脸)人最近做了什么改变?
我找到了解决这个问题的方法。使用 pytorch-pretrained-bert==0.4.0 运行相同的代码解决了问题,性能恢复正常。新更新中的 BERT Tokenizer 或 BERTForTokenClassification 中的模型性能出现问题,从而影响模型性能。希望 HuggingFace 尽快解决这个问题。:)
pytorch-pretrained-bert==0.4.0,测试 F1 分数:0.82
pytorch-pretrained-bert==0.6.1,测试 F1 分数:0.41
谢谢。
归档时间: |
|
查看次数: |
2421 次 |
最近记录: |