云峰
发表于 2006-10-31 14:32
清华,和尚书我都用过,最终我选择了汉王文本王,他的好处是直接输出到word文档里,可以识别表格、图片和文字,支持文字的格式,也就是说原来是大字号的文字,输出到word中依然是大字号。表格也是标准的word表格,不像其它的ocr软件识别成了制表符了。微软的ocr也是采用的是清华的技术。
云峰
发表于 2006-10-31 14:38
转贴:
1、中文OCR软件厂商中,您说的清华紫光,以前全称为清华紫光文通,现在公司名称为“北京文通信息技术有限公司”,成立于1992年,是在原国家科委的支持下,为推广应用清华大学电子工程系的科研成果——“863高科技计划”信息领域多字体印刷汉字自动识别技术而成立的高新技术企业。现在的紫光扫描仪捆绑都是TH-OCR OEM产品。我想您使用的估计这个OEM版本吧。
2、尚书OCR,是捆绑在扫描仪上出售的汉王科技的OEM版的OCR软件产品,如果您用过了汉王文本王的5800、6800,应该这个识别的能力比尚书的要强。毕竟文本王为专业级的产品。
无论是文通TH-OCR还是汉王文本王对于中英文混合识别的能力还是很成熟的,楼主说的“识别空白”或者“内存不能读”的现象,我想是由于您的版面分析工作没有做,或者没有做到位导致的。只要是用300DPI扫描的黑白图象清晰,都是可以识别出来。如果可以的话,楼主可以把您扫描的图象发给我这里看一下。
CAJVIEWER 6.0确实在阅读电子书格式上是个很不错的工具,OCR也只是它的一个控件功能之一。比如超星浏览器也具有OCR的识别核心,这用的都是文通TH-OCR的识别核心技术。
俄罗斯著名的软件厂商——ABBYY确实很厉害,他们的FineReader,我适用过,对于西文处理简直太神话了,识别率高不说,版面还原的功能更是让人惊讶,简直就是“克隆”。
就国外OCR技术来说,SCANSOFT公司也是领导厂商了,他们收购了不少海外优秀的OCR和语音识别企业。这个公司现在名字改为了NUANCE,我想NUANCE和ABBYY在OCR上的水平也是不相上下的。这个公司的著名OCR软件——OmniPage,想必楼主也有所耳闻,现在已经发行到了15.0的版本,在97年我就见过一些扫描仪上就捆绑着OmniPage的OEM版本,那个时候我正好赶上处理一些英文书籍,也有机会体验了一下OmniPage的魅力所在。
现在中文OCR,应该说我们国家的汉字识别水平是处于国际领先的,汉语毕竟是我们的母语,相信通过以清华大学电子系、中国科学院自动化所等研究机构和科学家们的不懈努力,以及象北京文通信息、汉王科技等一批优秀企业的产品研发和市场推广,会让OCR技术为我们国家信息化建设起到更有价值的作用。
丰德
发表于 2006-10-31 22:22
顶,我也在为PDF格式太大,手机上看很不方便,在网上找了几个PDF转TXT工具,可是转出来都是乱码,我希望大家能多传一些TXT格式的股票书籍!谢谢了!!!!!!!!!!!!!!!!!!!!!