小编par*_*egh的帖子

分类错误率的定义以及为什么一些研究人员使用错误率而不是准确性

分类错误率的确切定义是什么?为什么有些研究人员使用错误率而不是准确性来报告他们的结果?我试图将我的文本分类结果与文献中的其他方法进行比较,但他们使用错误率而不是准确性,我找不到确切的定义/方程来找到我的方法的错误率。

classification machine-learning

6
推荐指数
1
解决办法
4359
查看次数

如何阻止 BERT 将特定单词分解成词块

我正在使用预先训练的 BERT 模型将文本标记为有意义的标记。然而,文本有很多特定的词,我不希望 BERT 模型将它们分解成词块。有什么解决办法吗?例如:

tokenizer = BertTokenizer('bert-base-uncased-vocab.txt')
tokens = tokenizer.tokenize("metastasis")
Run Code Online (Sandbox Code Playgroud)

像这样创建令牌:

['meta', '##sta', '##sis']
Run Code Online (Sandbox Code Playgroud)

但是,我想将整个单词保留为一个标记,如下所示:

['metastasis']
Run Code Online (Sandbox Code Playgroud)

python text nlp tokenize bert-language-model

4
推荐指数
2
解决办法
1581
查看次数