Комментарии 5
Нормально. Ну, самое простое должно же проверяться первым… Паттерн чек можно было сделать в Экселе за часок. Я правильно понял, что окончательные выводы получены на независимой выборке?
Хотя попытка натянуть рекуррентные сети здесь выглядит логично, но… Делали ли вы эмбеддинг ваших псевдослов в векторное пространство? Если нет, то именно это упущение могло все и поломать.
0
Ну, собственно, этим все и закончилось, в некотором смысле. По-сути, последний вариант это вариант векторизации с точностью до слов(а не до букв). И на этом длинном векторе в данном случае строится классификатор типа — «а давайте отсортируем элементы вектора, чтобы „хорошие“ были справа, а „плохие“ слева.» И дальше отсечка по индексу в векторе. Если такой запихнуть в сеть, она тоже с этим справится, но это уже излишне.
И этом, в том числе, некоторая печаль, потому что в предложениях по одному слову и мера между словами не очень определена(в этой постановке), поэтому просто надо брать все существующие комбинации, как отдельные неделимые элементы вектора. Embedding формата word2vec тут не прокатывает, потому что у слов нет ближайшего контекста. Опять-таки, в рамках этой зачади.
И этом, в том числе, некоторая печаль, потому что в предложениях по одному слову и мера между словами не очень определена(в этой постановке), поэтому просто надо брать все существующие комбинации, как отдельные неделимые элементы вектора. Embedding формата word2vec тут не прокатывает, потому что у слов нет ближайшего контекста. Опять-таки, в рамках этой зачади.
0
Да, возможно-возможно, что контекста нет. Решать вам.
Я думаю, что лог.регрессия на бинарных признаках тут могла тоже справиться. Поясню, что в one-hot кодируется каждая последовательность, например, 1-2-2-3: 0001.
Я думаю, что лог.регрессия на бинарных признаках тут могла тоже справиться. Поясню, что в one-hot кодируется каждая последовательность, например, 1-2-2-3: 0001.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Сравнение методов прогнозирования конверсии цепочек рекламных каналов