如何处理输出预测中的 BERT "UNK" Token

how to handle BERT "UNK" Token in the output prediction

我在我的数据上训练了一个预训练的 BERT 模型。
我尝试制作一个 Json 包含两个列表：
第一：列表总结模型预测（期望值）
第二：真值列表

但第一个列表中有许多 ['UNK'] 标记
像这样的事情：

为什么会这样？我该如何解决？

这个UNK标签让预测结果接近于零:( 因为准确率是基于 完全匹配 of true 和 desire 而这个 UNKs 使得愿望不同...

我能为它做什么？

终于找到问题了。。。我用的Bert版本是适配波斯语的，没有完全通过波斯语规范化过程：）在完成该阶段并对 Bert 配置进行一些调试后，它解决了:)