Pull to refresh
38
0
Send message

Про S справедливо, поправил. Про n-1 - не совсем. В этой формуле нужно именно n, а вот когда будем оценивать стандартное отклонение - там в знаменателе будет n-1 (см "несмещенная выборочная дисперсия" https://ru.wikipedia.org/wiki/Выборочная_дисперсия)

Так доход на отправку тоже ведь упал, не очень понятно откуда вывод что с lstm стало лучше.
Было бы интересно сравнить бустинг с lstm при условии одинакового количества отправленных сообщений.

К сожалению, универсального ответа на вопрос что делать с выбросами нет. Если их выкидывание из обучения приводит к ухудшению метрик, выкидывать их, видимо, не стоит)

Не очень понял смысл комментария.
Под семантикой я понимаю "смысловое значение единиц языка". Возможно, вы говорите о том, что пространство эмбеддингов отражает лишь семантические связи между словами, а не собственно семантику слова? Это действительно так, но если рассуждать дальше, можно долго спорить о том, что такое семантика слова.
В любом случае, здесь речь просто о том, что частотность влияет на эмбеддинг сильнее, чем предполагалось.

Прошу прощения, проглядел комментарий об этом же. Тем не менее, опечатка в коде так и не исправлена ;)
Спасибо за статью. Можете пояснить, почему в embeddings лежат двумерные вектора? Это ведь выход Sequential, последний слой которого возвращает вектор размерности 128.
Да, спасибо, вы правы. Поправил это предложение.

Information

Rating
Does not participate
Works in
Registered
Activity