Добрый день, спасибо. Для тренировки модели использовались внутренние документы компании, которые по своей структуре разбивались на логические блоки для аннотирования.
Каждый блок состоял из набора предложений, который мы механически разметили, использовав подход topic-sentence.
Всего в обучающей выборке, не включающей тест и валидацию, находилось порядка 15 тыс. примеров.
Мы не пытались решить какую то конкретную задачу, а перед собой ставили цель максимально просто, почти на пальцах, раскрыть базовые подходы к анализу на простых и понятных всем примерах, с акцентом на возможные возникающие сложности и способы их решения.
А про BERT мы обязательно ещё поговорим в следующих статьях, спасибо Ваш интерес!
На сколько мне известно, в случайном лесе sklearn используется как раз суммирование изменений критерия. Про настройку этой фичи в lgbm не знал, спасибо!
Спасибо за интерес к статье!
0.04 – действительно низкая важность, но я смотрел по отношению к другим признакам. А если выбирать критерий для отсечения признаков, то его значение скорее всего будет неочевидным. Пермунтация значений действительно хороший метод, планирую его рассмотреть в следующей части
Добрый день, спасибо за интерес к статье. Вообще, данный эмбеддер позиционируется как векторизатор для предложений. На сколько корректно он будет работать в контексте сравнения двух слов/понятий сказать не могу. Однако вот результат сравнения, который вы просите:
щенок
0.5037827
сукин сын
щенок
0.4377274
сын
щенок
0.7690866
собачка
Добрый день! Работа описанного алгоритма рекомендательной системы рассчитана на всех действующих сотрудников организации, вне зависимости от их возраста.
Первоочередной критерий поиска похожих Users – история обучения, грейд и направление работы, поскольку сотрудники, работающие в одной вертикали будут проходить максимально похожие курсы, нежели сотрудники других направлений деятельности. Диапазон возрастных групп – 10 лет.
Например,
Исходному User 31 год (возрастная группа 30-39 лет). Алгоритм определил некоторое количество максимально похожих User (главным образом по истории обучения, вертикали, грейду, остальные критерии — вспомогательные). На следующем этапе алгоритм анализирует более детально историю обучения, если максимально похожим по всем критериям (кроме возраста) будет User в возрасте 45 лет (возрастная группа 41-49 лет), то это не станет преградой для использования пройденных им курсов для формирования рекомендаций. И, наоборот.
Да, примерно так. Строится суррогатная функция и находятся параметры, которые дают на ней лучший результат. После чего найденные параметры тестируются на основной
В данной статье как раз показано, как повлияло использование обратного распределения на улучшение итогового результата.
Каждый блок состоял из набора предложений, который мы механически разметили, использовав подход topic-sentence.
Всего в обучающей выборке, не включающей тест и валидацию, находилось порядка 15 тыс. примеров.
Спасибо! Рады, что вдохновили на идею! :)
Спасибо, это еще один хороший пример, как с помощью аппарата математической морфологии можно обрабатывать изображения для последующего анализа.
А про BERT мы обязательно ещё поговорим в следующих статьях, спасибо Ваш интерес!
0.04 – действительно низкая важность, но я смотрел по отношению к другим признакам. А если выбирать критерий для отсечения признаков, то его значение скорее всего будет неочевидным. Пермунтация значений действительно хороший метод, планирую его рассмотреть в следующей части
щенок
0.5037827
сукин сын
щенок
0.4377274
сын
щенок
0.7690866
собачка
Первоочередной критерий поиска похожих Users – история обучения, грейд и направление работы, поскольку сотрудники, работающие в одной вертикали будут проходить максимально похожие курсы, нежели сотрудники других направлений деятельности. Диапазон возрастных групп – 10 лет.
Например,
Исходному User 31 год (возрастная группа 30-39 лет). Алгоритм определил некоторое количество максимально похожих User (главным образом по истории обучения, вертикали, грейду, остальные критерии — вспомогательные). На следующем этапе алгоритм анализирует более детально историю обучения, если максимально похожим по всем критериям (кроме возраста) будет User в возрасте 45 лет (возрастная группа 41-49 лет), то это не станет преградой для использования пройденных им курсов для формирования рекомендаций. И, наоборот.