什么是tesseract-ocr
OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。
现在托管在GitHub中~
源代码位置
托管于 http://code.google.com/p/tesseract-ocr/
目前项目转移到GitHub https://github.com/tesseract-ocr
首先要安装依赖包leptonica
官网地址: http://www.leptonica.org/download.html
wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
tar xvzf leptonica-1.72.tar.gz
cd leptonica-1.72/
./configure
make && make install
|
安装tesseract
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip 3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig
|
下载安装英文,中文繁体,中文简体 识别库。
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
wget --no-check-certificate https://github.com/tesseract-ocr/tessdata/raw/master/chi_tra.traineddata
cp/mv *.traineddata /usr/local/share/tessdata/
|
配置文件位置
/usr/local/share/tessdata
准备测试图片,上传到测试服务器
验证
tesseract /root/code.jpg out
|
查看结果