Обновить
2

Пользователь

Отправить сообщение

Злободневная для меня тема. Как раз бьюсь над решением проблемы с распознаванием кропов определенных полей в ЖД накладных с рукописным текстом, причем не всегда он русский, а может быть английским, китайским, вьетнамским.
Добился распознавания почти всех 6 необходимых для извлечения полей до 95-99% точности, кроме одного (где не могу перейти планку в 85%), где могут присутствовать: печати и штампы разных цветов, зачеркнутый разными ручками текст (который нужно извлечь и не весь, а частично по определенным паттернам), артефакты сканирования, необычные способы написания чисел и букв. Из этого поля надо извлечь только одно число. Испробованы: DeepSeek-OCR, GPT-5, Gemini, PaddleOCR, Tesseract и еще куча менее известных. Построен довольно хитрый конвейер из обученной YOLO - специализированной OCR - LLM - постпроцессинг (эвристика+regex).
Если добьюсь 95% точности на оставшемся поле, это можно будет считать победой. Пожелайте удачи ))
Есть мысль обучить отдельный доп классификатор на рукописных цифрах, но мне кажется что эта овчинка не стоит выделки по затратам время/качество.
Что ж так в ЖД все сложно-то и не структурировано!

у меня в кубунту пока версия 7.6, обновлений не было. А браузер понравился.
Upd: пришло...

И сколько по времени она генерирует ответ на cpu? По полчаса "привет" пишет? Там же уснуть можно пока ответит. Не говоря уж о том, чтобы с ней несколько юзеров работать будут...

Думаю, что ИИ рано или поздно часть профессий заменит, это неизбежно и уже видно по текущей ситуации. На коне останутся либо разработчики такого ИИ, либо люди "ручных" профессий - условного сантехника никакой ИИ не заменит. Весь вопрос в оценке такого труда

2

Информация

В рейтинге
5 583-й
Зарегистрирован
Активность

Специализация

Фулстек разработчик, ML разработчик
Ведущий
От 3 000 $
Git
PostgreSQL
Linux
Python
Английский язык
Разработка программного обеспечения
Базы данных
Django
FastAPI
ООП