神经网络 - 在无法确定 class 标签时跳过一些序列元素?

Neural networks - skipping some sequence elements, when the class label cannot be determined?

我正在尝试使用 LSTM 神经网络对生物序列进行一些二进制预测。但是由于某些原因,序列中的某些元素无法分配给我的任何 class 标签。我的第一个想法是简单地跳过这些元素,但在使用旨在捕获长期依赖性的方法时,这似乎不是一个很好的应用方法。你遇到过类似的问题吗?

更具体地说:

DEAQFKECYDTCHKECSDKGNGFTFCEMKCDTDCSVKDVKEKLENYKPKN

是一个示例序列

00000000000000000000000000000000XXX111111111111111

是序列的 class 个标签。 X 表示无法确定真正的 class 标签。它可以出现在序列中的任何地方,而不仅仅是像示例中那样出现在具有不同标签的两个区域之间。

我想我找到了解决办法:屏蔽 https://keras.io/layers/core/#masking