Привет, читатель!
Перед тобой статья-путеводитель по дообучению EasyOCR
Несмотря на то что EasyOCR очень хорошо себя показывает при распознание текста, её все таки необходимо дообучать для поднятия точности распознания (например №
нет в символах распознания).
1. Подготовка базы.
Перед дообучением EasyOCR нам необходимо сгенерировать изображения с текстом и необходимым шрифтом или сделать разметку изображений.
Для автоматической генерации рекомендую пользоваться библиотекой trdg
, подробнее о том как ей пользоваться можно почитать тут.
p.s. у нас была задача по распознанию паспорта, и шрифтов не смогли найти, поэтому нам пришлось в ручную составлять dataset.
В итоге у нас должны получится изображения с текстом:
и файл labels.csv
следующего вида:
где filename
путь к файлу изображения, words
расшифровка текста с изображения.
Необходимо разделить выборку на 2 части (train
и val
) , это 2 каталога с изображениями и файлом *.csv
2. Подготовка к обучению.
2.1. Для начала необходимо скачать репозиторий с git: https://github.com/JaidedAI/EasyOCR
2.2. Тут нам необходимо в каталог ./trainer/all_data
добавить сформированный датасет.
├── all_data
│ ├── ru_train_filtered
│ │ └── 10001_1.jpg
│ │ ...
│ │ └── labels.csv
│ └── ru_val
│ │ └── 10002_1.jpg
│ │ ...
│ └── labels.csv
2.3. Далее скачиваем уже обученную модель cyrillic_g2 и кладем ее в каталог с OCR (по умолчанию файл находится тут ~/.EasyOCR/model
появляется после загрузки модели.
2.4. Теперь пришла очередь настраивать конфигурацию:
для корректного обучения необходимо чтобы было 208 символов для распознания всего (если не хватает символов то надо их заменять);
saved_model
- путь к модели, которую надо дообучать, если обучение прервалось, то можно установить последнею сохраненную модель и продолжить обучение;experi ment_name
- имя проекта;train_data, valid_data
- путь к датасету;num_iter
- кол-во эпох обучения;valInterval
- через сколько эпох выводить предсказание;FT
- режим файнтюннга;new_prediction
- чтобы не начинать обучение с нуля ставим тут False
number: '0123456789'
symbol: "!\"#$%&'()*+,-./:;<=>?@[\\]№_`{|}~ €₽"
lang_char: 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyzАБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдеёжзийклмнопрстуфхцчшщъыьэюяЂђЃѓЄєІіЇїЈјЉљЊњЋћЌќЎўЏџҐґҒғҚқҮүҲҳҶҷӀӏӢӣӨөӮӯ'
experi ment_name: 'ru_filtered'
train_data: 'all_data'
valid_data: 'all_data/val'
manualSeed: 1111
workers: 6
batch_size: 64 #32
num_iter: 30000
valInterval: 200
saved_model: 'cyrillic_g2'
FT: True
optim: False # значение по умолчанию - Adadelta
lr: 1.
beta1: 0.9
rho: 0.95
eps: 0.00000001
grad_clip: 5
#Data processing
select_data: 'train' # это папка dataset в train_data
batch_ratio: '1'
total_data_usage_ratio: 1.0
batch_max_length: 68
imgH: 64
imgW: 600
rgb: False
contrast_adjust: False
sensitive: True
PAD: True
contrast_adjust: 0.0
data_filtering_off: False
# Архитектура модели
Transformation: 'None'
FeatureExtraction: 'VGG'
SequenceModeling: 'BiLSTM'
Prediction: 'CTC'
num_fiducial: 20
input_channel: 1
output_channel: 256
hidden_size: 256
decode: 'greedy'
new_prediction: False
freeze_FeatureFxtraction: False
freeze_SequenceModeling: False
Сохраняем файл как custom_data_train.yaml
в каталог config
.
Обучение EasyOCR
!pip install utils
import os
import torch.backends.cudnn as cudnn
import yaml
from train import train
from utils import AttrDict
import pandas as pd
cudnn.benchmark = True
cudnn.deterministic = False
def get_config(file_path):
with open(file_path, 'r', encoding="utf8") as stream:
opt = yaml.safe_load(stream)
opt = AttrDict(opt)
if opt.lang_char == 'None':
characters = ''
for data in opt['select_data'].split('-'):
csv_path = os.path.join(opt['train_data'], data, 'labels.csv')
df = pd.read_csv(csv_path, sep='^([^,]+),', engine='python', usecols=['filename', 'words'], keep_default_na=False)
all_char = ''.join(df['words'])
characters += ''.join(set(all_char))
characters = sorted(set(characters))
opt.character= ''.join(characters)
else:
opt.character = opt.number + opt.symbol + opt.lang_char
os.makedirs(f'./saved_models/{opt.experiment_name}', exist_ok=True)
return opt
#Запускаем обучение
opt = get_config("config/custom_data_train.yaml")
train(opt, amp=False)
Запуск обученной EasyOCR
Необходимо скачать, извлечь и разместить файлы custom_example.py , custom_example.yaml в каталоге custom_EasyOCR (по умолчанию = ~/.EasyOCR/user_network) и поместите custom_example.pth (обученная модель) в каталог model (по умолчанию = ~/.EasyOCR/model) Как только вы разместите все 3 файла в соответствующих местах, вы можете использовать custom_example
Обратите внимание что все 3 файла должны иметь одинаковое имя.
reader = easyocr.Reader(['ru'],
model_storage_directory='custom_EasyOCR/model',
user_network_directory='custom_EasyOCR/user_network',
recog_network='custom_example')
Лайфхаки по улучшению точности распознанию.
Перевести картинку в оттенки серого.
Настроить словарь распознания символов
result = reader.readtext(image, allowlist='АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯ-')
На распознание подавать картинку, где только 1 строка, а потом соединять строки.