Обновить
3
0

Пользователь

Отправить сообщение

Сегментация потоков документов: используем BERT

Время на прочтение8 мин
Охват и читатели3.9K

Вы наверняка знакомы с ситуацией, когда при обращении в какую-либо крупную организацию приходится подавать целый пакет документов, точнее пакет их сканов. И это в век «цифры»! Теперь посмотрите на это глазами второй стороны и представьте, что у вас миллионы таких заявок со сканами, и они… не содержат информации о границах документов. Апокалипсис? Всё придётся сегментировать вручную? К счастью, существуют алгоритмы автоматической сегментации потоков многостраничных документов. Здесь мы расскажем о новом подходе в сегментации с использованием модели BERT.

Читать дальше →

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

Время на прочтение10 мин
Охват и читатели8.4K
В рамках кредитных конвейеров юридических лиц банки запрашивают у компаний оригиналы различных документов. Зачастую сканы этих документов поступают в виде единого многостраничного файла – «потока». Для удобства использования потоки нужно сегментировать на отдельные документы (одностраничные или многостраничные) и классифицировать их. Под катом мы расскажем о применении алгоритмов машинного обучения в классификации уже сегментированных документов.


Читать дальше →

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность