Трансформеры для распознавания текста удивили меня.
Решил я тоже приобщиться к трансформерам, а именно — использовать TrOCR для распознавания кириллицы, взял 2 миллиона картинок отсюда, плюс 5 миллионов синтетических картинок для машинного текста, модель самая маленькая microsoft/trocr‑small‑handwritten, протренировав пока всего 4% датасета, получил вот такой результат:
eval_loss': 0.08684375882148743, 'eval_cer': 0.19802096831193308, 'eval_acc': 0.834890964431634
