空间和训练数据中的 Cased VS uncased BERT 模型

Ole*_*kyi 8 python spacy bert-language-model

我想使用spacy's pretrained BERT 模型进行文本分类,但我对cased/uncased模型有点困惑。我在某处读到cased模型应该只在字母大小写有可能对任务有帮助的情况下使用。在我的具体情况下:我正在处理德语文本。在德语中,所有名词都以大写字母开头。所以,我认为,(如果我错了,请纠正我)这是cased必须使用模型的确切情况。(在 中也没有uncased适用于德语的模型spacy)。

但是在这种情况下必须对数据做什么?我应该(在预处理火车数据时)保持原样(我的意思是不使用该.lower()功能)还是没有任何区别?

jay*_*elm 11

作为不会说德语的人,您对名词大写的评论确实使大小写与德语的相关性似乎比与英语更相关,但这显然并不意味着案例模型会在所有任务上提供更好的性能.

对于诸如词性检测之类的事情,由于您描述的原因,case 可能会非常有帮助,但对于情感分析之类的事情,尚不清楚拥有更大词汇量所增加的复杂性是否值得带来好处。(作为人类,您可能会想象用所有小写文本轻松进行情感分析。)

鉴于唯一可用的模型是带壳版本,我会选择它 - 我相信它仍然是您可以接触到的最好的预训练德国模型之一。大小写模型具有不同大小写单词的单独词汇条目(例如,在英语中the并且The将是不同的标记)。所以是的,在预处理期间,您不想通过调用 删除该信息.lower(),只需保持外壳不变。


小智 7

简单来说,BERT cased 不会小写以大写字母开头的单词,例如德语中的名词。

\n

当重音起着重要作用时,BERT 大小写很有帮助。\n例如德语中的 sch\xc3\xb6n

\n

如果我们使用 BERT uncased 将 sch\xc3\xb6n 转换为 schon,它将有不同的含义。\nsch\xc3\xb6n 表示美丽,而 schon 表示已经

\n