用于比较 OCR 结果的最接近的字符串匹配

Question

我正在对几张示例图像进行 OCR。我已手动读取这些图像中包含的文本并将其存储在单独的文本文件中。

我想测试一下我的 OCR 成功率。因此，我正在寻找一种算法，在比较 OCR 文本与我手动读取和存储的文本时，它会告诉我成功百分比。

关键是，如果单词之间有 space，我不想将其标记为完全失败。

例如：

示例 1：

Actual Text: Treadstone is a great tire 
OCR'd text v1: Treadstone is a great tire (100%)
OCR'd text v2: Tread stone is a great tire (~90%)
OCR'd text v3: Tread stone tire great is a (same as v2)
OCR'd text v4: Freadstone is a freat tyre (~80%)

有没有我可以使用的已知算法？如果不是，我应该采用什么方法来计算这个成功率？

Answer 1

考虑使用 Levenshtein 字符串编辑距离。您可以通过为 space insertion/deletion 分配与其他字符不同的惩罚来对其进行微调。

您可能需要设置最大允许距离，以限制长字符串的运行时间。

用于比较 OCR 结果的最接近的字符串匹配

closest string match for comparing OCR results

python

language-agnostic

algorithm

string-comparison

levenshtein-distance