最近在写点东西,有很多资料来自于知网上当到的PDF和CAJ文件。有的文字虽然可以复制粘贴,但是会出现大量的排版错误和字符问题。而大部分文档则无法直接复制需要手动输入,少量文字还好,大量文字的输入就让人不能忍受了。这时候我找到了一个OCR识别神器——汉王PDF OCR 。
只需将材料扫描/用手机拍照,然后交给软件识别成文本。汉王 PDF OCR 提供 PDF 自动转换 RTF/TXT 功能,同时支持 TIFF/JPEG/GIF 等图像格式文本识别。手动操作基本步骤是先调整角度,之后自动识别版面,F8 开始识别。
根据我多次使用的经验发现,汉王PDF OCR 对纯中文/纯英文的情况处理准确率极高,但对同一行中英文混合的情况处理不理想。
另外,这个软件对于个人用户是免费的,我们可以随便用。但是不能用于商业目的。
软件官方下载地址:http://download.hw99.com/hanwang/online/ocr80/HW_PDF_OCR_80.rar
ps:我试用了若干个OCR识别软件,不过还是汉王对我要识别的文字准确度最高。不代表对其他文件识别率也同样高。另外我发现识别率还受图片清晰度以及字符大小影响,一般越清晰,字符越大识别率越高。