首页 技术 正文
技术 2022年11月18日
0 收藏 341 点赞 2,728 浏览 1115 个字

用Tesseract-OCR做识别库的时候,生成字典非常麻烦,就写了一个批处理,用来生成字典还是蛮方便的,希望大家有用,该批处理已经自动生成font_properties文件,各位无需手动创建

下载地址:http://tesseract-ocr.googlecode.com/files/tesseract-ocr-setup-3.01-1.exe

下面简单说下怎么训练

1、批量下载、并保存需要识别的图片(验证码);

2、预处理图片(降噪、剪裁、灰度);

3、使用 jTessBoxEditor 生成 tif 文件(注:jTessBoxEditor是java软件,需要安装java jdk)

4、复制我这个批处理文件到生成的tif目录下执行

5、输入tif的完整文件名

6、输入字典项目名称

7、是否生成box文件,没有生成的,选择y,已经生成并修正过的就选择n

8、生成完毕

下面是批处理的内容,复制下面内容,保存一个.bat文件

echo off
cls
set /p img=请输入图片名:
set /p pro=请输入项目名:set /p level=是否生成box?
if %level% NEQ n goto step2
if %level% NEQ N goto step2echo 、生成%img%的box文件,项目名【%pro%】
pause
tesseract.exe %img% %pro% batch.nochop digits makebox
cls
echo 生成box文件完成,请使用jTessBoxEditor校正识别信息。
pause:step2
tesseract.exe %img% %pro% nobatch box.train
unicharset_extractor.exe %pro%.boxecho 生成font_properties文件
set val=%pro%
echo %val%>font_propertiescntraining.exe %pro%.trmftraining.exe -F font_properties -U unicharset %pro%.trecho 重命名文件
rename inttemp %pro%.inttemp
rename unicharset %pro%.unicharset
rename normproto %pro%.normproto
rename pffmtable %pro%.pffmtable
rename shapetable %pro%.shapetable
echo 生成字典文件...
combine_tessdata %pro%.echo 字典生成完毕,已生成字典:%pro%.traineddata

注:3.0.2 增加了一个 shapetable  文件,在重命名时这个文件也需要重名命

相关推荐
python开发_常用的python模块及安装方法
adodb:我们领导推荐的数据库连接组件bsddb3:BerkeleyDB的连接组件Cheetah-1.0:我比较喜欢这个版本的cheeta…
日期:2022-11-24 点赞:878 阅读:9,497
Educational Codeforces Round 11 C. Hard Process 二分
C. Hard Process题目连接:http://www.codeforces.com/contest/660/problem/CDes…
日期:2022-11-24 点赞:807 阅读:5,910
下载Ubuntn 17.04 内核源代码
zengkefu@server1:/usr/src$ uname -aLinux server1 4.10.0-19-generic #21…
日期:2022-11-24 点赞:569 阅读:6,744
可用Active Desktop Calendar V7.86 注册码序列号
可用Active Desktop Calendar V7.86 注册码序列号Name: www.greendown.cn Code: &nb…
日期:2022-11-24 点赞:733 阅读:6,498
Android调用系统相机、自定义相机、处理大图片
Android调用系统相机和自定义相机实例本博文主要是介绍了android上使用相机进行拍照并显示的两种方式,并且由于涉及到要把拍到的照片显…
日期:2022-11-24 点赞:512 阅读:8,135
Struts的使用
一、Struts2的获取  Struts的官方网站为:http://struts.apache.org/  下载完Struts2的jar包,…
日期:2022-11-24 点赞:671 阅读:5,298