tesseract-ocr是一个流行的开源OCR引擎库,能够将图像中的文本转换为可编辑的文本格式,它使用C++编写。
Tesseract OCR for PHP 是一个用于在 PHP 环境中集成tesseract-ocr功能的封装库。最初由 HP 开发,后来被 Google 收购并继续开发。他的主要编程语言是 PHP,旨在为 PHP 开发者提供一个简单易用的接口来调用tesseract-ocr功能。可以通过tesseract-ocr识别PDF、JPEG、GIF、PNG等格式的图像。
tesseract-ocr的最大特点是它是针对多语言设计的,可以识别世界上大部分语言的文本。
注意:Tesseract OCR for PHP 依赖于 Tesseract OCR 版本 3.02 或更高版本。如果系统中安装的 Tesseract OCR 版本过低,可能会导致项目无法正常运行。
Ubuntu安装tesseract-ocr
apt install tesseract-ocr
macOS安装
brew install tesseract
安装PHP扩展
composer require thiagoalessio/tesseract_ocr
安装语言包
apt-get install tesseract-ocr-<langcode>
查看可安装的语言包列表
apt list tesseract-ocr*
简单使用案例
<?php
require 'vendor/autoload.php';
use thiagoalessio\TesseractOCR\TesseractOCR;
$text = (new TesseractOCR('path/to/image.png'))
->lang('chi_sim') //可选,指定语言包为中文
->run();
echo $text;
设置语言
$ocr->lang('deu'); //设置为德语
$ocr->lang('eng', 'jpn', 'spa'); //设置为英语、日语和西班牙语
参考文章:
https://blog.csdn.net/gitblog_01170/article/details/143544321
https://mp.weixin.qq.com/s/TYp6T5reFPfkOYMTnMGdhA