为 BERT 建模创建输入数据 - 多类文本分类

Creating input data for BERT modelling - multiclass text classification

我正在尝试构建一个 keras 模型来对 45 种不同的文本进行分类 类。我对根据 google 的 BERT 模型的要求为输入准备数据感到有点困惑。

一些博客文章将数据作为 tf 数据集插入,其中包含 input_ids、段 ID 和掩码 ID,如 this guide, but then some only go with input_ids and masks, as in this guide.

同样在第二个指南中,它指出段掩码和注意掩码输入是可选的。

谁能解释这两个是否是多类分类任务所必需的?

如果有帮助,我的数据的每一行都可以在一个合理大小的段落中包含任意数量的句子。我希望能够将每个 paragraph/input 分类到一个标签。

关于将 BERT 与 Keras (Tensorflow 2) 结合使用来解决多类问题,我似乎找不到很多 guides/blogs,实际上其中很多都是针对多标签问题。

我想现在回答已经太晚了,但我也有同样的问题。我检查了 huggingface 代码,发现如果 attention_mask 和 segment_type id 是 None 那么默认情况下它会关注所有标记并且所有段都被赋予 id 0.

想看的可以找码here

让我知道这是否说明了问题,或者您有其他想法。