CentOS7下编译安装tesseract-ocr流程

时间:2018-04-19
什么是tesseract-ocr
 
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
 
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
 
现在托管在GitHub中~
 
源代码位置
 
托管于 http://code.google.com/p/tesseract-ocr/ 
目前项目转移到GitHub https://github.com/tesseract-ocr

首先要安装依赖包leptonica
 
官网地址: http://www.leptonica.org/download.html
 
 wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
 tar xvzf leptonica-1.72.tar.gz
 cd leptonica-1.72/
 ./configure
  make && make install

安装tesseract
 
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig

下载安装英文,中文繁体,中文简体 识别库。
 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata 
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
                      
cp/mv *.traineddata /usr/local/share/tessdata/

配置文件位置
 
/usr/local/share/tessdata
 
 
准备测试图片,上传到测试服务器
 
验证
 
tesseract /root/code.jpg out
 
查看结果
 
cat out.txt

上一条:JRE的安装及环境变量配置 下一条:分享几个免费IP地址查询接口(API)

相关文章

最新文章