Также поделюсь видео с моего недавнего выступления на онлайн-конференции «Применение ML в Digital-продуктах», которую проводили коллеги из AGIMA и Epoch8.
В этом посте мы разберём следующее:
- где можно искать данные, если для задачи нет готового датасета;
- как можно быстро и дёшево увеличить размер своего датасета;
- как использовать кластеризацию сырых данных;
- какие есть методы улучшения качества датасета после разметки.
Вступление
Работая над виртуальными ассистентами, нам часто необходимо обучать специфические модели-классификаторы, которые решают свою узкую задачу. У таких задач есть несколько особенностей:
- отсутствие готовых датасетов;
- отсутствие чёткой структуры классов, на которые можно разделить данные;
- наличие сырых логов, в которых могут быть интересующие нас данные;
- сильный дисбаланс классов, где самый многочисленный класс – это класс нерелевантной информации.
Для решения подобных задач, мы выработали определенный пайплайн – последовательность шагов, которая позволяет быстро и дёшево обучить нужную модель. Ниже рассмотрим процесс обучения модели для классификации интересов пользователей.