首页 > 技术分享 > 原生PHP
收藏

PHP使用Tesseract OCR for PHP识别图片中的文字

12/06 14:34
大潇博客 原创文章,转载请标明出处

tesseract-ocr是一个流行的开源OCR引擎库,能够将图像中的文本转换为可编辑的文本格式,它使用C++编写。

Tesseract OCR for PHP 是一个用于在 PHP 环境中集成tesseract-ocr功能的封装库。最初由 HP 开发,后来被 Google 收购并继续开发。他的主要编程语言是 PHP,旨在为 PHP 开发者提供一个简单易用的接口来调用tesseract-ocr功能。可以通过tesseract-ocr识别PDF、JPEG、GIF、PNG等格式的图像。

tesseract-ocr的最大特点是它是针对多语言设计的,可以识别世界上大部分语言的文本。


注意:Tesseract OCR for PHP 依赖于 Tesseract OCR 版本 3.02 或更高版本。如果系统中安装的 Tesseract OCR 版本过低,可能会导致项目无法正常运行。


Ubuntu安装tesseract-ocr

apt install tesseract-ocr

macOS安装

brew install tesseract


安装PHP扩展

composer require thiagoalessio/tesseract_ocr


安装语言包

apt-get install tesseract-ocr-<langcode>


查看可安装的语言包列表

apt list tesseract-ocr*


简单使用案例

<?php
require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;

$text = (new TesseractOCR('path/to/image.png'))

->lang('chi_sim') //可选,指定语言包为中文

->run();

echo $text;


设置语言

$ocr->lang('deu'); //设置为德语

$ocr->lang('eng', 'jpn', 'spa'); //设置为英语、日语和西班牙语


参考文章:

https://blog.csdn.net/gitblog_01170/article/details/143544321

https://mp.weixin.qq.com/s/TYp6T5reFPfkOYMTnMGdhA


打赏

阅读排行

大家都在搜

博客维护不易,感谢你的肯定
扫码打赏,建议金额1-10元
  • 15601023311