Как стать автором
Обновить

Нейросетевой подход к моделированию транзакций расчетного счета

Время на прочтение9 мин
Количество просмотров8.1K
Всего голосов 6: ↑5 и ↓1+7
Комментарии3

Комментарии 3

Спасибо а статью! а можете подсказать / показать как вот эти эмбеддинги сработают в случае если встретится редкий класс транзакций -- постановка на картотеку, например?

Имеется ввиду эмбеддинг для тектового описания?
Тут смотря в чем редкость подобного описания будет. word2vec эмбеддинг учим для каждого токена, так что для любого описания, даже если оно очень редко встречается, будет релевантный эмбеддинг если он состоит из популярных токенов. В статье не упоминал, но "порог популярности" для токена был 5000 на корпусе в 100 млн описаний, так что условная "картотека" должна была попасть

Если же описание совсем состоит из очень редко встречающихся токенов, тогда при предобработке оно будет состоять из полностью токенов вида unpop_tok, усреднение которых можно считать что-то вроде "заполнение пропуска" в фичах описания.

Когда корпоративный скорринг делают, текст вручную размечают на разные категории по видам расходов и доходов. И тогда уже текст с эмбедингами проходит классификацию и результат потом идет в модель скорринга.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий