将多个句子传递给 BERT?

Passing multiple sentences to BERT?

我有一个包含段落的数据集,我需要将其分为两个 类。这些段落通常有 3-5 个句子。其中绝大多数的长度不到 500 字。我想利用 BERT 来解决这个问题。

我想知道我应该如何使用 BERT 生成这些段落的向量表示,尤其是将整个段落传递给 BERT 是否可以?

已对相关问题进行了翔实的讨论here and here。这些讨论集中在如何使用 BERT 来表示整个文档。在我的例子中,段落并没有那么长,而且确实可以在不超过其最大长度 512 的情况下传递给 BERT。但是,BERT 是在句子上训练的。句子是相对独立的意义单位。我想知道将多个句子输入 BERT 是否与模型的设计目的没有根本冲突(尽管这似乎是定期进行的)。

我认为你的问题是基于一种误解。尽管 BERT paper 经常使用术语 sentence,但它并不是指语言句子。论文将一个句子定义为

an arbitrary span of contiguous text, rather than an actual linguistic sentence.

因此,将整个段落传递给 BERT 是完全没问题的,这也是他们可以处理这些段落的原因。