Добрый день, спасибо. Для тренировки модели использовались внутренние документы компании, которые по своей структуре разбивались на логические блоки для аннотирования.
Каждый блок состоял из набора предложений, который мы механически разметили, использовав подход topic-sentence.
Всего в обучающей выборке, не включающей тест и валидацию, находилось порядка 15 тыс. примеров.
Аннотирование текстов при помощи BERT