Reconocimiento de caracteres por teseract

Medio Ambiente

Miniconda
python 3.7
windows

Importar teseract


La Red Neural de la versión 4.0 se utiliza para mejorar la precisión.
Cuando introduzca testseract en anconda, introduzca lo siguiente en el comando.
Si utiliza Anaconda, consulte Aquí. si no puede.
conda install -c conda-forge tesseract
Sin Anaconda, instale testseract a través de la ruta.
Para usarlo correctamente, introduzca el siguiente comando.
Está bien cuando la versión regresa.
tesseract -v
>>tesseract 4.1.0

Añadir idioma


El siguiente comando de entrada, si no es JPN, comienza con [aquí]. Por favor, descargue traineddata.
JPN. Abrir datos de entrenamiento
Póngalo en C:\Users\***\Miniconda3\envs\my_env\Library\bin\tessdata
, por favor.
tesseract --list-langs
List of available languages (3):
eng
jpn
osd
Si es así, está bien.
Además del japonés también se puede añadir.

Importar pyocr


Terminal.
pip install pyocr

Practicar

from PIL import Image
import sys
import pyocr
import pyocr.builders

tools = pyocr.get_available_tools()
if len(tools) == 0:
    print("No OCR tool found")
    sys.exit(1)

tool = tools[0]

#言語、オプションの指定をする
txt = tool.image_to_string( 
    Image.open('IMG_5.png'),
    lang='jpn',
    builder=pyocr.builders.TextBuilder()
)
print(txt)
乃 木 坂 ④⑥・ 齋 藤 飛 鳥 の ①st 写 真 集 『 潮 騒 』 ( 幻 冬 舎 )
が 、 最 新 の ⑪/①① 付 オ リ コ ン 週 間 BOOK ラ ン キ ン グ ジ ャ
ン ル 別 ` 写 真 集 」 で ③④ 位 に ラ ン ク イ ン 。②0①⑦ 年 ① 月 の 発
売 か ら ② 年 ①0 ヶ 月 を 経 た 現 在 ち ラ ン キ ン グ 圏 内 を 推 移 。 好
調 な 乃 木 坂 ④⑥ メ ン バ ー の ソ ロ 写 真 集 の な か で も 数 少 な い
超 ロ ン グ ヒ ッ ト と な り 、 累 計 売 上 部 数 は ⑲.③ 万 部 を 超
え 、②0 万 部 目 前 ま で 迫 っ て い る 。

【 写 真 】 そ の 他 の 写 真 を 見 る

⑪/①① 付 の 同 ラ ン キ ン グ 内 を 見 る と 、 乃 木 坂 ④⑥ メ ン バ
ー の ソ ロ 写 真 集 の な か で 発 売 日 が ち っ と も 早 い の が 齋 膳
飛 鳥 の 『 潮 騒 』 と な り 、 次 い で ⑳①⑦ 年 ② 月 発 売 の 白 石 麻
衣 の 『 パ ス ポ ー ト 』 ( 講 談 社 ) 。 『 パ ス ポ ー ト 』 は 、 ジ
ヤ ン ル 別 ` 写 真 集 」 歴 代 ② 位 、 ソ ロ 写 真 集 と し て は 歴 代 ①
位 と な り 、 現 在 累 計 売 上 は ③③.⑥ 万 部 を 超 え て い る 。
Aunque la comprensión de los números es un poco pobre, creo que otras personas pueden entender con una alta probabilidad.

Referencia


Probar OCR con testseract en el sistema Python 3
[pyocr] extraer datos de texto japonés de la imagen
Si hay algún error, pida edición.