Комментарии / Профиль cointegrated / Хабр

Разработчик / Аналитик / Data Scientist / NLPшник

277

Подписчики

ПрофильСтатьи25ПостыНовостиКомментарии88

cointegrated 8 янв 2018 в 19:15

Если не считать простоев, когда всё падало (в основном из за несоответствия структуры html ожидаемой), около 8 часов. На ноутбуке :)

Как я парсил Хабр, часть 1: тренды

cointegrated 8 янв 2018 в 15:01

Я скорее неторопливый практик :) Про идеально привлекательный текст будет следующая статья.

Как мы участвовали в хакатоне М.Видео

cointegrated 28 окт 2017 в 09:31

В основном — да. Но кроме отзывов, есть ещё формальные технические характеристики, на основе которых можно тоже что-то хорошее делать. Собственно, в предпоследнем разделе мы пытались именно их ранжировать по важности с точки зрения конверсии.

Как мы участвовали в хакатоне М.Видео

cointegrated 27 окт 2017 в 09:27

Кодинг за еду он и был :)

Конечная цель М.Видео была в том, чтобы автоматически формировать карточки товаров на сайте. В карточки надо выносить какие-то характеристики, важные для покупателя. Как понять, какие из них важны, нам никто не объяснял, просто дали те данные, какие есть. И мы уже начали придумывать свои определения, что такое «значимый атрибут».

Синтаксический анализ в NLTK

cointegrated 26 окт 2017 в 17:28

А для русского языка какое-нибудь удобное решение можете порекомендовать?

Как мы участвовали в хакатоне М.Видео

cointegrated 23 окт 2017 в 07:24

Насколько я знаю, GAN'ы пока плохо с текстом работают. В этом посте (правда, год назад) Ян Гудфеллоу популярно объясняет, почему. Может быть, с тех пор что-то сдвинулось, но вряд ли сильно

Анализируем требования рынка для data scientist

cointegrated 15 сен 2017 в 07:43

Чтобы приводить слова к базовой форме, можно заюзать pymorphy2

Вместо отсеивания стоп-слов можно просто отранжировать слова и фразы по tf-idf, считая "документом" пачку вакансий по одному и тому же запросу. Тогда мусор типа "будет плюсом" уйдёт в низ рейтинга.

Идея на будущее: оценить, какие навыки ценятся выше всего (коррелируют с высокой зарплатой).

Как понять, что ваша предсказательная модель бесполезна

cointegrated 12 сен 2017 в 12:00

Вопрос на самом деле очень хороший :)
Бывают ситуации, когда так делать можно — можно погуглить «importance sampling» и «active learning». Но в тех задачах, с которыми я сталкивался, обычно не было универсальной, очевидной, да и вообще качественной меры сходства между заявками.
Имеет смысл вероятностный подход: более «подходящие» заявки имеют более высокий шанс попасть в лотерею (скажем, 3%), менее интересные — скажем, 0.1%. Но ненулевой шанс стоит давать почти всем, потому что потом можно будет перевзвесить наблюдения и получить репрезентативную (стратифицированную) выборку, на которой можно оценить что угодно.

1 2 3 4