A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,主要观点分成两派:
* 一派认为为了提高识别率,应该先识别出印刷(打印)时采用的字体,然后针对字体特征进行识别。国外OCR界在识别字母文字时也有人持相同的观点。这种路线的好处是显而易见的:
1、在识别出字体后,字符特征相对固定,识别率能够得到提高。
2、得到原文的字体后,便于恢复原文版式。
当然缺点也是明摆着的:需要针对每一种可能遇到的字体建立特征库,如果需要识别的字体不在事先建立的特征库范围内,则识别率急剧下降。但是众多的特征库不仅占用存储空间,对OCR的运行效率也有影响。
* 另一派认为事物是有区别的,但又是普遍联系的,如果割裂这些联系,就会……(以下省略高中《辨正唯物主义》教材中的若干著名论断)。总之,在他们看来,字体会变,但是汉字的笔画是不会变的,中文的“文”字那一横在宋体中是平的,在楷书中是斜的,但是一横就是一横,绝对不会变成一竖。因此该派认为没有必要为所有字体建立特征库,大家共用一个就可以了。这种路线的好处是:
1、特征库比较单纯,库的体积相对较小,识别速度也相对较快。
2、即使需要识别的字体比较少见,识别率也不会差到离谱。
这种路线的缺点是:
1、需要针对大量字体进行特征归纳,并在机器归纳基础上手工调整,开发的时候比较累。
2、由于大量字体之间的平均效果,识别率会比采用第一种路线的差上那么一点点,不过做好了感觉就不是那么明显了。
3、由于没有字体信息,很难恢复原文版式。