В рамках кредитных конвейеров юридических лиц банки запрашивают у компаний оригиналы различных документов. Зачастую сканы этих документов поступают в виде единого многостраничного файла – «потока». Для удобства использования потоки нужно сегментировать на отдельные документы (одностраничные или многостраничные) и классифицировать их. Под катом мы расскажем о применении алгоритмов машинного обучения в классификации уже сегментированных документов.
![](https://habrastorage.org/webt/nx/pw/ht/nxpwht7ju1u1dkqjvgwpo3liabk.jpeg)
![](https://habrastorage.org/webt/nx/pw/ht/nxpwht7ju1u1dkqjvgwpo3liabk.jpeg)