免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6

2022-09-08电脑应用评论873
摘要

今天小编给大家分享这款「Umi-OCR」基于 PaddleOCR 的离线 OCR 模块,根据介绍,可以训练模型,支持修改 PaddleOCR 参数,添加不同的语言模型,软件可识别多国语言,当然这前提是你会折腾。

文字OCR识别软件也可以说是必备的软件之一了,对于一些图片里的文字再也不用手动去打了。说到 OCR 软件在之前比较专业的软件有 ABBYY FineReader 不过它是付费软件,劝退了一些用户。

后来各大软件厂商也推出了在线的 OCR 识别接口,所以就出现了很多基于 API 接口的免费开源 OCR 识别软件,不过因为是需要调用在线接口,没有网络情况就无法用了,那么有没有离线免费又好用的?

今天小编给大家分享这款「Umi-OCR」基于 PaddleOCR 的离线 OCR 模块,根据介绍,可以训练模型,支持修改 PaddleOCR 参数,添加不同的语言模型,软件可识别多国语言,当然这前提是你会折腾。

Umi-OCR使用

这款「Umi-OCR」和其它的 OCR 软件不一样的是它主要采用批量识别普通图片并识别文字内容导出,以及还有支持忽略指定区域的特殊功能,例如可以屏蔽掉视频右上角水印和游戏的 UI 内容。

批量识别图片导出文本对于一些场景用途来说比你一张一张去识别效率要高不少,使用也很简单,批量拖入你需要识别的图片。

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6
接下来点击设置,可以设置勾选识别内容写入到本地文件,可以选择 txt 文本或者 Markdown 格式,选择输出目录。
免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6
如果你识别的图片里面有一些内容你不需要的,例如水印,可以点击添加区域功能,然后选择你不需要识别的区域。

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6
忽略区域功能说明:

忽略区域1 :正常情况下,处于忽略区域1内的文字 不会 输出。
识别区域 :当识别区域内存在文本时,忽略区域1失效 ;即处于忽略区域1内的文字也 会 被输出。
忽略区域2 :当 忽略区域1失效时,忽略区域2才生效;即处于区域1内的文字 会 输出、区域2内的文字不会输出。
接着点击开始任务即可进行批量图片识别文字,从列表中可以看到内容基本上都被识别出来了。

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6
导出的文本对比图片里面的内容,中文内容基本上没错误,不过个别英文内容可能是图片比较模糊的原因,识别出来有个别错误,所以识别的图片尽量选择清晰点的大图。

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6

更换语言识别模型

上面介绍说了基于 PaddleOCR 的离线 OCR 模块,支持多语言识别模型,你可以去 PaddleOCR 项目下载你需要语言模块和字典,放到 PaddleOCR-json 目录。

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6

以法文为例:

前往 PP-OCR系列 多语言识别模型列表 下载对应的 推理模型french_mobile_v2.0_rec_infer.tar 和 字典文件french_dict.txt
PaddleOCR-json目录下创建文件夹rec_fr,将解压后的三个模型文件放进去。字典文件可直接放在目录下。
复制一份识别器PaddleOCR_json.exe,命名为PaddleOCR_json_fr.exe
复制一份配置单PaddleOCR_json_config.txt,命名为PaddleOCR_json_fr_config.txt
打开配置单PaddleOCR_json_fr_config.txt,将# rec config相关的两个配置项改为:

rec_model_dirrec_fr
char_list_file french_dict.txt

保存文件,打开软件,将 识别器路径 改为 PaddleOCR-jsonPaddleOCR_json_fr.exe

免费开源|离线批量图片转文字OCR识别软件-Umi-OCR v1.2.6

总结

使用下来因为「Umi-OCR」基于 PaddleOCR 的离线 OCR 模块,识别非常块,加上这个你也可以手动切换不同的语言识别模块,非常强大。软件主打批量转换,如果你是文字工作者,面对一堆图片文档,现在也可以轻松转换成文本了,所以强烈推荐哟。缺点嘛,就是没有实时屏幕截图识别的功能,不知道以后会不会加上。

这个软件不支持 Win7 系统,请用 Win10 或者更高版本。

下载

开源项目

https://github.com/hiroi-sora/Umi-OCR

PaddleOCR语言模型

https://gitee.com/paddlepaddle/PaddleOCR

其乐博记下载信息
下载地址

免责声明:根据我国《计算机软件保护条例》第十七条规定:“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24小时之内删除,否则后果均由用户承担责任。