Pull to refresh
9
0
Михаил Усков @9851754

Пользователь

Send message

Понял, на тесте так же получаем эмбеддинги и передаем их модели, обученной на эмбеддингах трейна.

Если вы используете эмбеддинги для пользователей то предполагается, что вы сможете их использовать на тестовой выборке, которую отправляете на оценку. Значит в трейне и тесте содержаться одни и те же user_id. Тогда я беру пользователя из теста, нахожу его в трейн и проставляю таргет и получаю 100% качества, или нет?

Нет, эта статья никак не связанна с предстоящими выборами. Если вам интересно применение статистики в социальных науках, то могу порекомендовать ознакомиться с блогом Эндрю Гельмана.

Вы пишите «рассматривать задачу классификации (отсюда и tf-idf)», подскажите почему?

В моей задаче я разбил целевую переменную на пять интервалов, таким образом получил 5 классов документов — очень высокая посещаемость, очень низкая посещаемость и все, что посередине. Я рассуждал так: TFIDF считает насколько данное слово характерно для данного класса документов. Если я не буду разбивать целевую переменную на интервалы, то придется рассматривать задачу регрессии, но тогда с точки зрения tfidf я получу столько классов, сколько принимает уникальных значений мой y. Тогда, множитель TF останется без изменений, а IDF скорее всего будет просто константой, поскольку IDF = log (число документов в классе / (число документов в классе, в которых данное слово встречается + 1) ). Число документов в классе будет почти всегда единицей, из-за того, что в целевой переменной для регрессии почти все значения уникальны, так же и знаменатель (число документов в классе, в которых данное слово встречается + 1) = 2 почти всегда, поэтому IDF ~ log(0.5) и пользы от него никакой.
Возможно вы знаете: tf-idf фиттится на тестовой, а не на всей выборке, а что делать с кросс-валидацией? Там же «тестовая» попадает в tf-idf.fit как это влияет? Видимо улучшает качество на кросс-валидации, но влияет ли это на подбор параметров и приминать ли это в расчёт?

Я следовал рекомендациям sklearn. Допустим я хочу провести кросс-валидацию по 5 разбиениям: на 4/5 частях от всей выборки я обучаюсь, на 1/5 проверяю качество модели, и так 5 раз. tf-idf настраивается только на обучающей выборке (та, которая 4/5), а на тестовой выборке (та, которая 1/5) только применяет преобразование, т.е. тест не участвует в обучении.
Если я правильно понял, вам нужен этот файл.
Цель всего цикла статей — выяснить, что интересного можно сделать с открытыми данными в таком виде, в каком они есть сейчас, можно ли, скажем, сделать целую систему аналитики только на открытых данных, которая бы обладала прогностической способностью, может ли это быть полезным для нас, простых людей? Относительно выводов: в статье предполагались две гипотезы, нулевая — средние распределений статистически не различаются, альтернативная — различие есть. Вывод — в рамках предложенной методологии данные поддерживают нулевую гипотезу.

Information

Rating
Does not participate
Registered
Activity