欢迎, 游客
注册 | 登录
首页 | 会员 | 统计 | 帮助 | 繁体中文


 
标题: 【活动】100贴了!送邀请码。另喵鼻子咖啡汀请进
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:55  资料  短消息  加为好友 
OCR识别率决定因素+扫描仪设置
1.亮度值:(一般用扫描仪默认的,别改)
如果亮度值太大,文字线条会不光滑,有点凹凸不平,甚至有断线。
亮度值太小,文字线条条很黑很粗,跟周围挤成黑疙瘩。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:56  资料  短消息  加为好友 
2.对比度:(一般用扫描仪默认的,别改)
相对来说比度越大,图像上的文字越清晰醒目;而对比度太小,则会让文字周围都灰蒙蒙的。

另外说下,首发贴:http://bcxt.uueasy.com/read-htm-tid-999.html





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:56  资料  短消息  加为好友 
3.分辨率(解析度) ,一般建议英文150dpi以上。象形字最好300dpi或以上(太高扫描速度会变慢)。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:56  资料  短消息  加为好友 
4.颜色:有些人认为彩色更好,其实相反,黑白图片识别率更高。另推荐保持成tif格式。 (能在保证质量的同时占较少的空间)





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:57  资料  短消息  加为好友 
5.对齐:横的就是横的,竖的就是竖的。你扫斜了会减少识别率,所以扫描时尽量扫好。必要时用ps的倾斜矫正。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:57  资料  短消息  加为好友 
6.字体:如果是手写识别率很低,软件若支持手写会特别写出。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 08:59  资料  短消息  加为好友 
7.文本密度:为达到最好的OCR 效果,把识别区域调的正好包围着文字(连续的文字,不包含大块的空白可以识别的更好).





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 09:03  资料  短消息  加为好友 
8.辨识引擎/词库:目前大多OCR软件都有自定义的个人词库,但是大多数都是靠厂家自带的,所以一般情况下,越大的越好(当然也有意外,下面引用老马的话)。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 09:04  资料  短消息  加为好友 


QUOTE:
A:在历史上,针对印刷体OCR的技术路线,国内OCR界曾经爆发过一场争议,主要观点分成两派:

    * 一派认为为了提高识别率,应该先识别出印刷(打印)时采用的字体,然后针对字体特征进行识别。国外OCR界在识别字母文字时也有人持相同的观点。这种路线的好处是显而易见的:
      1、在识别出字体后,字符特征相对固定,识别率能够得到提高。
      2、得到原文的字体后,便于恢复原文版式。
      当然缺点也是明摆着的:需要针对每一种可能遇到的字体建立特征库,如果需要识别的字体不在事先建立的特征库范围内,则识别率急剧下降。但是众多的特征库不仅占用存储空间,对OCR的运行效率也有影响。
    * 另一派认为事物是有区别的,但又是普遍联系的,如果割裂这些联系,就会……(以下省略高中《辨正唯物主义》教材中的若干著名论断)。总之,在他们看来,字体会变,但是汉字的笔画是不会变的,中文的“文”字那一横在宋体中是平的,在楷书中是斜的,但是一横就是一横,绝对不会变成一竖。因此该派认为没有必要为所有字体建立特征库,大家共用一个就可以了。这种路线的好处是:
      1、特征库比较单纯,库的体积相对较小,识别速度也相对较快。
      2、即使需要识别的字体比较少见,识别率也不会差到离谱。
      这种路线的缺点是:
      1、需要针对大量字体进行特征归纳,并在机器归纳基础上手工调整,开发的时候比较累。
      2、由于大量字体之间的平均效果,识别率会比采用第一种路线的差上那么一点点,不过做好了感觉就不是那么明显了。
      3、由于没有字体信息,很难恢复原文版式。






从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
samcsli
实习记者
Rank: 5Rank: 5


北条司50大寿记念勋章  
UID 1917
精华 5
积分 763
帖子 903
阅读权限 50
注册 2007-5-23
状态 离线
发表于 2010-12-27 09:06  资料  短消息  加为好友 
说了一大堆,就是一个是用词库,比较大。另外一个是用特征库比较小。
我这里要介绍的大概只有汉王屏幕摘抄、汉王照片摘抄、Mini Ocr、微软是用特征库。





从 CH 转看 天使心 前必看的入门漫画
http://www.hojocn.com/bbs/viewthread.php?tid=5581&extra=page%3D1
顶部
 



当前时区 GMT+8, 现在时间是 2024-4-26 07:32
津ICP备09012152号-1

    本论坛支付平台由支付宝提供
携手打造安全诚信的交易社区 Powered by Discuz! 5.5.0  © 2001-2007 Comsenz Inc.
Processed in 0.031428 second(s), 6 queries

清除 Cookies - 联系我们 - www.hojocn.com - Archiver - WAP