如何从文本图像中删除虚线带？

Question

我正在处理的问题之一是对文档进行 OCR。一些工资单文件有一个带点的突出显示行，以区分重要元素，如总工资、净工资等。

这些点在 OCR 中给出了错误的结果，它认为它们是“:”字符并且没有给出预期的结果。我已经尝试了很多图像处理方法，例如 ImageMagick 等来去除这些点。但在每种情况下，整个文本数据的质量都会下降，从而导致 OCR 效果不佳。

我试过的 ImageMagick 命令是：

转换 mm150.jpg -kuwahara 3 mm2.jpg

我也尝试过连接组件、内核侵蚀等，但每种方法都以某种方式失败。

我想知道是否有我应该遵循的方法，或者我是否缺少图像处理功能的某些内容。

Answer 1

使用opencv的connectedComponentsWithStats函数可以解决这个问题。我从这个问题

中找到了参考资料

我根据自己的需要对其进行了一些改动。这是帮助我获得所需输出的代码。

    import cv2
    import numpy as np
    import sys

    img = cv2.imread(sys.argv[1], 0)
    _, blackAndWhite = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY_INV)


    nlabels, labels, stats, centroids = cv2.connectedComponentsWithStats(blackAndWhite, 4, cv2.CV_32S)
    sizes = stats[1:, -1] #get CC_STAT_AREA component
    img2 = np.zeros((labels.shape), np.uint8)

    for i in range(0, nlabels - 1):
        if sizes[i] >= 8:   #filter small dotted regions
            img2[labels == i + 1] = 255

    res = cv2.bitwise_not(img2)

    cv2.imwrite('res.jpg', res)

我得到的输出文件非常清晰，去掉了虚线带，例如它提供了完美的 OCR 结果。

如何从文本图像中删除虚线带？

How to remove dotted band from text image?

ocr

imagemagick

image-processing

imagemagick-convert