Comments 7
Архитектура модели на эмбеддингах последовательностей (рисунок)
В случае, если для клиента не существует эмбеддинга по одному из источников данных, модель принимает на вход соответствующий источнику данных усредненный константный эмбеддинг. Это позволяет сформировать предсказание для всех активных клиентов.
Если всех клиентов с неполными данными сгруппировать по признакам отсутствия данных для конкретного эмбеддинга (или сразу нескольких), получится выделить 1–2–3 самых крупных группы.
Для этих групп можно, например, иметь отдельные сети, аналогичные большой, но с изъятием входов с отсутствующих эмбеддингов. Не придумывать входные данные для большой сети, когда данных нет, а просто обучить отдельную сеть, созданную специально под такой случай.
У меня такое ощущение, что так можно ещё немножко выжать из идеи, за счёт более точного предсказания по самым крупным группам клиентов с неполными данными.
Что скажете?
Идея с заменой пропуска на усредненный эмбеддинг на самом деле похожа на то, как мы заполняли пропуски скоров раньше, когда смешивали их логистической регрессией: в том случае мы заполняли пропуски нулями, после чего при обучении логрега добавляли признак пропуска, который равен 1, когда есть пропуск, и 0 в противном случае. Так модель сама подбирала константное значение, которым заполнить пропуск. Такая схема в ретроспективе себя достаточно хорошо показала при инференсе на потоке.
Что касается Вашей идеи: ранее в задаче кредитного скоринга мы действительно обучали несколько моделей под разные сегменты (но не по критерию наличия/отсутствия данных из источника по клиенту), но мы такую схему больше не применяем, так как обучение одной модели на всех сегментах позволило получить более высокое качество за счет объема данных. Использование дополнительных отдельных моделей в зависимости от наличия данных из источника по клиенту может сильно усложнить схему инференса, потребует дополнительных ресурсов и не факт, что даст прирост в качестве (по аналогии с примером выше). Но, в любом случае, идея интересная, и мы попробуем с этим поэкспериментировать.
И там и там есть свои плюсы и минусы (что очевидно)), но приятно видеть реальное развитие МЛ и "продакшен" МЛ).
Я бы с радостью почитал, как вы решали проблему жесткого "оверфитинга" "стеккинга" прошлого решения.
А по новому решению я бы с такой же радостью почитал про контроль качества данных, трансформации , "фичер стор" итд.
Наверно стоит пояснить немного:
При первом подходе проблема контроля данных никуда не исчезает, но можно теоретически проигнорировать контроль входных данных и смотреть распределения предсказаний индивидуальных моделей. Если что-то "поехало" можно просто убрать модель из "стекинга" линейной модели и продолжать выдавать "скоринги".
В случае нового варианта единой модели, уже не получится так легко манипулировать "ансамблем" и нужно будет уделять гораздо больше внимания тому, что подается на вход модели. И понятное дело, что у вас были "мониторинги" и до перехода на новую схему, но интересно посмотреть и почитать какая степень контроля данных считается вами достаточной и как это организовано (стек/инструменты/итд).
Сейчас у нас настроен мониторинг отдельных моделей на источниках - при каждом продовом инференсе мы контролируем, не «поехали» ли данные относительно зафиксированного бейзлайна, рассчитывая PSI - в данный момент мы доверяем такому подходу. В дальнейшем мы планируем добавить мониторинг эмбеддингов как входов единой модели (например, оценивать embedding drift).
Если что-то сильно «поехало», мы можем переобучить и перевнедрить такую модель, здесь проблем быть не должно. Сейчас это новый для нас подход, мы обязательно придем к отлаженной и устойчивой схеме контроля качества данных для него.
Спасибо за статью. Сколько с такой архитектурой выигрывается у обычного бустинга деревьев?
For students who have a lot of ventures to take care of, attending multiple classes and taking various coursework like homework, assignment, dissertation etc becomes an impossible task. So, what are the way out to balance social life and GPA score throughout? Here you can even hire professional writers from <a href="http://expertessays.co.uk/">do my assignment</a>to ease your task. When you hire experts to write your task, you get high-quality and error-free work that increases your score.
Единая нейросетевая модель кредитного скоринга