Articles / Profile of Russell

User

Profile Publications 2Comments 1Bookmarks

Russell_Zab Oct 5 2020 at 15:37

Сегментация потоков документов: используем BERT

8 min

ВТБ corporate blogNatural Language Processing*Machine learning*

Вы наверняка знакомы с ситуацией, когда при обращении в какую-либо крупную организацию приходится подавать целый пакет документов, точнее пакет их сканов. И это в век «цифры»! Теперь посмотрите на это глазами второй стороны и представьте, что у вас миллионы таких заявок со сканами, и они… не содержат информации о границах документов. Апокалипсис? Всё придётся сегментировать вручную? К счастью, существуют алгоритмы автоматической сегментации потоков многостраничных документов. Здесь мы расскажем о новом подходе в сегментации с использованием модели BERT.

Читать дальше →

Russell_Zab Apr 16 2020 at 10:50

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

10 min

7.4K

ВТБ corporate blogIT-companiesMachine learning*Finance in IT

В рамках кредитных конвейеров юридических лиц банки запрашивают у компаний оригиналы различных документов. Зачастую сканы этих документов поступают в виде единого многостраничного файла – «потока». Для удобства использования потоки нужно сегментировать на отдельные документы (одностраничные или многостраничные) и классифицировать их. Под катом мы расскажем о применении алгоритмов машинного обучения в классификации уже сегментированных документов.

Читать дальше →