用于命名实体识别的 PyTorch Huggingface BERT-NLP

Question

用于命名实体识别的 PyTorch Huggingface BERT-NLP

Ash*_*bal 5 python nlp named-entity-recognition data-science huggingface-transformers

一段时间以来，我一直在使用HuggingFace对 MADE 1.0 数据集使用 Google BERT的PyTorch实现。直到上次（2 月 11 日），我一直在使用该库，通过对模型进行微调，我的命名实体识别任务的F-Score为0.81。但是本周，当我运行之前编译和运行的完全相同的代码时，它在执行此语句时抛出了一个错误：

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt) for txt in tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

Run Code Online (Sandbox Code Playgroud)

ValueError：令牌索引序列长度长于此 BERT 模型指定的最大序列长度 (632 > 512)。通过 BERT 运行此序列将导致索引错误

此colab notebook 中提供了完整代码。

为了解决这个错误，我通过获取任何序列的前 512 个标记并将 [SEP] 的索引添加到 BERT 要求的截断/填充序列的末尾进行了必要的更改，将上述语句修改为以下语句。

input_ids = pad_sequences([tokenizer.convert_tokens_to_ids(txt[:512]) for txt in tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post")

Run Code Online (Sandbox Code Playgroud)

结果不应该改变，因为我只考虑序列中的前 512 个标记，然后将其截断为 75 作为我的 (MAX_LEN=75)，但我的F-Score已降至0.40，精度降至0.27，而Recall仍然是相同(0.85)。我无法共享数据集，因为我已经签署了保密条款，但我可以保证 BERT 要求的所有预处理都已完成，并且所有扩展令牌（如 (Johanson --> Johan ##son) 都已用 X 标记并替换）后来按照BERT论文中所说的预测。

有没有其他人遇到过类似的问题，或者可以详细说明可能是什么问题，或者 PyTorch（拥抱脸）人最近做了什么改变？

Answer 1

Ash*_*bal 4

我找到了解决这个问题的方法。使用 pytorch-pretrained-bert==0.4.0 运行相同的代码解决了问题，性能恢复正常。新更新中的 BERT Tokenizer 或 BERTForTokenClassification 中的模型性能出现问题，从而影响模型性能。希望 HuggingFace 尽快解决这个问题。:)

pytorch-pretrained-bert==0.4.0，测试 F1 分数：0.82

pytorch-pretrained-bert==0.6.1，测试 F1 分数：0.41

谢谢。

归档时间：	6 年，12 月前
查看次数：	2421 次
最近记录：	6 年前