将多个句子传递给 BERT?

ask*_*ons 2 nlp text-classification bert-language-model huggingface-transformers

我有一个包含段落的数据集,我需要将其分为两类。这些段落通常有 3-5 句话长。其中绝大多数的长度不到 500 字。我想利用BERT来解决这个问题。

我想知道我应该如何使用 BERT 来生成这些段落的向量表示,尤其是将整个段落传递给 BERT 是否可以?

此处此处对相关问题进行了翔实的讨论。这些讨论集中在如何使用 BERT 来表示整个文档。在我的例子中,段落并没有那么长,确实可以在不超过 512 的最大长度的情况下传递给 BERT。但是,BERT 是在句子上进行训练的。句子是相对独立的意义单位。我想知道将多个句子输入 BERT 是否与模型的设计目的没有根本冲突(尽管这似乎是定期进行的)。

cro*_*oik 5

我认为你的问题是基于一种误解。尽管BERT 论文sentence经常使用该术语,但它并不是指语言句子。该论文将一个句子定义为

任意范围的连续文本,而不是实际的语言句子。

因此,将整个段落传递给 BERT 是完全没问题的,也是他们可以处理这些段落的原因。

  • 什么时候我们应该如何分开句子?“[SEP]”令牌? (2认同)