如何处理输出预测中的 BERT "UNK" Token
how to handle BERT "UNK" Token in the output prediction
我在我的数据上训练了一个预训练的 BERT 模型。
我尝试制作一个 Json 包含两个列表:
第一:列表总结模型预测(期望值)
第二:真值列表
但第一个列表中有许多 ['UNK'] 标记
像这样的事情:
为什么会这样?我该如何解决?
这个UNK标签让预测结果接近于零:(
因为准确率是基于 完全匹配 of true 和 desire 而这个 UNKs 使得 愿望不同...
我能为它做什么?
终于找到问题了。。。我用的Bert版本是适配波斯语的,没有完全通过波斯语规范化过程:)
在完成该阶段并对 Bert 配置进行一些调试后,它解决了:)
我在我的数据上训练了一个预训练的 BERT 模型。
我尝试制作一个 Json 包含两个列表:
第一:列表总结模型预测(期望值)
第二:真值列表
但第一个列表中有许多 ['UNK'] 标记
像这样的事情:
为什么会这样?我该如何解决?
这个UNK标签让预测结果接近于零:( 因为准确率是基于 完全匹配 of true 和 desire 而这个 UNKs 使得 愿望不同...
我能为它做什么?
终于找到问题了。。。我用的Bert版本是适配波斯语的,没有完全通过波斯语规范化过程:) 在完成该阶段并对 Bert 配置进行一些调试后,它解决了:)