Pull to refresh
4
0
Send message

Сегментация потоков документов: используем BERT

Reading time8 min
Views3K

Вы наверняка знакомы с ситуацией, когда при обращении в какую-либо крупную организацию приходится подавать целый пакет документов, точнее пакет их сканов. И это в век «цифры»! Теперь посмотрите на это глазами второй стороны и представьте, что у вас миллионы таких заявок со сканами, и они… не содержат информации о границах документов. Апокалипсис? Всё придётся сегментировать вручную? К счастью, существуют алгоритмы автоматической сегментации потоков многостраничных документов. Здесь мы расскажем о новом подходе в сегментации с использованием модели BERT.

Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments0

Использование алгоритмов ML для классификации многостраничных документов: опыт ВТБ

Reading time10 min
Views7.4K
В рамках кредитных конвейеров юридических лиц банки запрашивают у компаний оригиналы различных документов. Зачастую сканы этих документов поступают в виде единого многостраничного файла – «потока». Для удобства использования потоки нужно сегментировать на отдельные документы (одностраничные или многостраничные) и классифицировать их. Под катом мы расскажем о применении алгоритмов машинного обучения в классификации уже сегментированных документов.


Читать дальше →
Total votes 7: ↑7 and ↓0+7
Comments2

Information

Rating
Does not participate
Works in
Registered
Activity