Java 图片提取验证码 https://my.oschina.net/gaoguofan/blog/800197

安装 Tesseract-OCR

Windows 版本

  1. tesseract-ocr-setup-xx.xx.exe
  2. chi_sim.traineddata.gz   中文语言包

这两个请自行百度即可,然后我们将其安装在D:下,其中将语言包放在安装目录下的tessdata的目录下。

Linux 版本

我使用的是centos7,下面给出安装tesseract的前提条件。

  1. 安装编译库

    请注意这里面是两个库,使用了顿号隔开的,一般系统都有存在这个库的
  2. 安装依赖的leptonica库

    这个依赖库要注意,一定是1.71以上的版本。
  3. 下载编译tesseract

    tesseract我安装在了 /usr/local 这个目录下,名称为 tesseract-3.04.00 。如果你使用的是3.01的版本,需要在./autogen.sh 后面执行mkdir m4;这条命令,否则他会提示m4这个目录不存在。
  4. 下载识别库(语言包)

    注意此处的语言包以及解压出的语言包都要放在 /usr/local/share/tessdata/ 目录下。

Java 读取数据

  1. 启动命令程序

    此处要注意一下tesseract的命令目录,Windows和Linux的目录不同,尤其分隔符。
  2. 解析图片程序

    改程序会将图片首先解析为tif类型文件,在其中读取出数据。
  3. 测试加载

    注意在测试中的文件路径问题,Linux和Windows区别很大。
  4. Maven 包管理

  5.