【活动】100贴了！送邀请码。另喵鼻子咖啡汀请进 - 猫眼咖啡屋 - XYZBBS(北条司中文网)

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#31

发表于 2010-12-27 08:55 资料短消息加为好友

OCR识别率决定因素+扫描仪设置
1.亮度值：(一般用扫描仪默认的，别改)
如果亮度值太大，文字线条会不光滑，有点凹凸不平，甚至有断线。
亮度值太小，文字线条条很黑很粗，跟周围挤成黑疙瘩。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#32

发表于 2010-12-27 08:56 资料短消息加为好友

2.对比度：(一般用扫描仪默认的，别改)
相对来说比度越大，图像上的文字越清晰醒目；而对比度太小，则会让文字周围都灰蒙蒙的。

另外说下，首发贴：http://bcxt.uueasy.com/read-htm-tid-999.html

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#33

发表于 2010-12-27 08:56 资料短消息加为好友

3.分辨率(解析度) ，一般建议英文150dpi以上。象形字最好300dpi或以上(太高扫描速度会变慢)。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#34

发表于 2010-12-27 08:56 资料短消息加为好友

4.颜色：有些人认为彩色更好，其实相反，黑白图片识别率更高。另推荐保持成tif格式。（能在保证质量的同时占较少的空间）

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#35

发表于 2010-12-27 08:57 资料短消息加为好友

5.对齐：横的就是横的，竖的就是竖的。你扫斜了会减少识别率，所以扫描时尽量扫好。必要时用ps的倾斜矫正。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#36

发表于 2010-12-27 08:57 资料短消息加为好友

6.字体：如果是手写识别率很低，软件若支持手写会特别写出。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#37

发表于 2010-12-27 08:59 资料短消息加为好友

7.文本密度：为达到最好的OCR 效果,把识别区域调的正好包围着文字(连续的文字,不包含大块的空白可以识别的更好).

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#38

发表于 2010-12-27 09:03 资料短消息加为好友

8.辨识引擎/词库:目前大多OCR软件都有自定义的个人词库，但是大多数都是靠厂家自带的，所以一般情况下，越大的越好（当然也有意外，下面引用老马的话）。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#39

发表于 2010-12-27 09:04 资料短消息加为好友

QUOTE:

A：在历史上，针对印刷体OCR的技术路线，国内OCR界曾经爆发过一场争议，主要观点分成两派：

* 一派认为为了提高识别率，应该先识别出印刷（打印）时采用的字体，然后针对字体特征进行识别。国外OCR界在识别字母文字时也有人持相同的观点。这种路线的好处是显而易见的：
   1、在识别出字体后，字符特征相对固定，识别率能够得到提高。
   2、得到原文的字体后，便于恢复原文版式。
   当然缺点也是明摆着的：需要针对每一种可能遇到的字体建立特征库，如果需要识别的字体不在事先建立的特征库范围内，则识别率急剧下降。但是众多的特征库不仅占用存储空间，对OCR的运行效率也有影响。
* 另一派认为事物是有区别的，但又是普遍联系的，如果割裂这些联系，就会……（以下省略高中《辨正唯物主义》教材中的若干著名论断）。总之，在他们看来，字体会变，但是汉字的笔画是不会变的，中文的“文”字那一横在宋体中是平的，在楷书中是斜的，但是一横就是一横，绝对不会变成一竖。因此该派认为没有必要为所有字体建立特征库，大家共用一个就可以了。这种路线的好处是：
   1、特征库比较单纯，库的体积相对较小，识别速度也相对较快。
   2、即使需要识别的字体比较少见，识别率也不会差到离谱。
   这种路线的缺点是：
   1、需要针对大量字体进行特征归纳，并在机器归纳基础上手工调整，开发的时候比较累。
   2、由于大量字体之间的平均效果，识别率会比采用第一种路线的差上那么一点点，不过做好了感觉就不是那么明显了。
   3、由于没有字体信息，很难恢复原文版式。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1

samcsli

实习记者

UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态离线

#40

发表于 2010-12-27 09:06 资料短消息加为好友

说了一大堆，就是一个是用词库，比较大。另外一个是用特征库比较小。
我这里要介绍的大概只有汉王屏幕摘抄、汉王照片摘抄、Mini Ocr、微软是用特征库。

从 CH 转看天使心前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1