Предсказание оттока пользователей

Обработка данных и применение основных видов регрессий для решения задач на Kaggle, на примере соревнования "Предсказание оттока пользователей" от DeepLearningSchool МФТИ.
Марафоны программирования
Обработка данных и применение основных видов регрессий для решения задач на Kaggle, на примере соревнования "Предсказание оттока пользователей" от DeepLearningSchool МФТИ.
Подборка мероприятий на неделю.
На встрече мы:
Совсем недавно наша аналитик рассказывала о том, как выиграть хакатон, сохранив моральное и физическоездоровье.
За пару дней до выхода статьи эта же аналитик подговорила наших ребят участвовать в командном хакатоне. Результат не самый приятный — 38 место из 60. Однако, этот опыт, как и любой другой, не прошел даром (а еще был очень веселым).
В этой статье каждый участник команды поделится своим опытом и персональной рефлексией. Ну и лулзами, пойманными в процессе.
На связи снова Калмыкова Надежда, и, как и обещала в первой статье про задачу голосовой инвентаризации, возвращаюсь с рассказом о том, какие подходы к ее решению оказались самыми удачными, и поделюсь впечатлениями о нашем первом хакатоне HackWagon22, который прошел 16-18 декабря 2022.
Для начала, напомню формулировку задачи.
У нас есть аудиозапись, сделанная сотрудником в процессе инвентаризации на обычный смартфон, которая содержит информацию о каждой пронумерованной детали на складе. Из этого аудиофайла необходимо извлечь характеристики деталей и внести их в отчет с минимальными потерями информации. В результате получаем таблицу, где для каждой детали указан номер, завод-изготовитель, год изготовления и комментарий. Правильной считаем только ту строку отчета, где корректны все эти поля. Более подробная постановка задачи, предпосылки и подводные камни описаны здесь.
Перед тем, как использовать эту задачу для нашего хакатона, как подошла к ее решению я?
Поскольку задача состояла именно в проверке жизнеспособности идеи голосовой инвентаризации, и архитектура продукта для инвентаризации на тот момент была на начальных этапах проработки, не было необходимости «подружить» решение с чем бы то ни было, и в процессе разработки была полнейшая свобода.
Нам нужно было предусмотреть подавление шумов – ведь все склады очень разные, на некоторых может быть очень много посторонних звуков, и с этой задачей для наших аудио отлично показала себя библиотека NoiseReduce. Ее использование позволило уменьшить зашумленность исходного материала, не потеряв при этом нужную информацию, для инвентаризации это критично. Для получения текста из аудиозаписи я воспользовалась SpeechKit-ом. Он позволяет получить идеальное распознавание чисел при достаточно хорошей скорости работы и удобстве использования. А для того, чтобы собрать из текста необходимый отчет, я использовала расстояние Левенштейна в сочетании с регулярками – аккуратная работа с ними позволила добиться отличного значения метрики. Так мы пришли к выводу, что у голосовой инвентаризации есть будущее и такой функционал действительно поможет сократить ресурсы компании на проведение этого процесса, не потеряв в качестве результата.
Расскажу, что же происходило на нашем хаке.
«Я тебя по IP вычислю!» – помните такую угрозу из интернета времен нулевых годов? Мы в Big Data МТС решили выяснить, можно ли составить хотя бы приблизительное представление о человеке, обладая информацией о сайтах, которые он посещает. Мы сгенерировали полусинтетические данные, чтобы понять, насколько смелыми можно быть в этих ваших интернетах.
Приглашаем вас попробовать составить портрет пользователя на основе этих данных и посмотреть, насколько точным он получится. Также под катом вы найдете наш baseline решения, написание которого займет около получаса.
Доброго времени суток всем уважаемым хабровчанам. Меня зовут Алексей, и в данный момент я работаю в “Филиале №11 ООО "ОЦРВ" Сириус”. В этой статье я хотел бы поделиться с вами опытом своего участия в соревновании на достаточно известной соревновательной платформе по Data Science’у - Kaggle.
10-13 июня 2022 года прошел MoscowCityHack2022. Наша команда NorthShine заняла на нем первое место в первом кейсе. Задача была написать "сервис проверки поддельных новостей (fake news) в сфере технологий и инноваций".
Мы провели небольшой ресерч и определились с тем, как в принципе будем писать сервис по определению фейковых новостей. Сначала нам надо было решить какую новость считать правдивой, а какую - нет...
Чтобы не заржаветь, роботы регулярно проводят хакатоны. И конец года — отличное время для очередной тренировки, которую организовал руководитель нашего iOS-отдела Лёша Тюрнин.
Семь железных команд за сутки придумали прототипы сервисов, которых им не хватает сегодня. Именно о них, с видео и презентациями, — в этом материале.
Привет!
Меня зовут Калмыкова Надежда, я - Data Scientist в ПГК Диджитал. В блоге ПГК мои коллеги уже не раз делились тем, как мы разрабатываем цифровые продукты, аналогов которым нет в сфере железнодорожной логистики. Я работаю в отделе прототипирования и помогаю исследовать возможности реализации различных идей, прежде чем они станут полноценными продуктами или проектами и потребуют больших ресурсов. Сегодня хочу рассказать о не самой очевидной для промышленности задаче - поиске голосового решения для проведения инвентаризации.
Будет две статьи по этой теме, в первой я опишу детали задачи и особенности технологического процесса. Во второй поделюсь этапами решения и полученными результатами.
Мы реализовали нашу первую версию и используем эту задачу для одного из треков грядущего хакатона ПГК Диджитал – HackWagon22. Поэтому лучшие практики его участников станут приятным дополнением к нашим идеям для решения задачи во второй части статьи.
Актуальность задачи
Любая компания, даже небольшая, регулярно сталкивается с задачей инвентаризации - как минимум, мебели и техники в офисе. А промышленные компании проводят еще инвентаризацию дорогостоящего оборудования и деталей. И если инвентаризация офисной техники проходит в теплом помещении (хотя и не всегда с комфортом - номера могут быть наклеены в неочевидных местах), то инвентаризация в «полях» может стать настоящим испытанием - дождь, снег, сбивающий с ног ветер, опасность нападения медведя. И ПГК здесь не исключение - как крупнейший оператор грузового парка, в управлении которого - около 100 тысяч вагонов, компания хранит вагонные детали на большом количестве складов в разных уголках страны, чтобы быть готовой своевременно обслуживать парк. Для точного понимания, что, сколько и где у нас есть, мы регулярно проводим инвентаризацию.
Скорее всего, вы слышали о «12 стартапах за 12 месяцев» или о продуктах, которые родились на хакатонах. Такие истории всегда вдохновляли меня, поэтому я придумал свой челлендж: я сделал простой сервис за выходные.
У нас в BI.ZONE очень любят прогать, тусоваться и выпивать вместе. А еще наши крутые эксперты могут сделать что-то полезное для коллег, клиентов или общества — было бы время. Чтобы совместить приятное с полезным, раз в квартал внутри компании проходит GO.ZONE.
Недавно я впервые в жизни поучаствовал в хакатоне. Относительно классических хакатонов этот можно назвать облегченным, задание выполнялось в течении двух недель. Что из этого вышло и что пошло не так - читайте под катом
Привет, Хабр!
Это статья является продолжением цикла материалов по разбору задач Всероссийского чемпионата "Цифровой Прорыв", связанных с Computer Vision. Решение, предлагаемое в статье, позволяет получить место в топ-10 лидерборда, при это реализация самого подхода у автора статьи заняла ~ 3-4 часа. В конце даются советы по улучшению решения, а также идеи, которые могут привести к победе.
Под катом вас ждут: Focal Loss, RetinaNet и причём тут YOLOv5.
Привет! Я Саша Пургина, руководитель отдела развития data-продуктов в Lamoda. В этой статье хочу рассказать, как мы использовали экспертизу разных команд для генерации 200+ новых гипотез и сплотили весь отдел вокруг решения пользовательских проблем.
Статья будет полезна продактам, проджектам и лидам команд, которые ищут варианты роста вовлеченности коллег на базе продуктовых вопросов в условиях удаленной работы и без больших затрат. В конце вас ждет чек-лист и шаблон презентации, чтобы было проще реализовать похожую идею у себя.
Кому статья точно НЕ будет полезна: компаниям, которые не готовы брать гипотезы от разработки и других отделов в продуктовый бэклог для проверки и реализации.
Подборка мероприятий на неделю.
Дополнительные бонусы:
Привет, Хабр! Я Вова, Lead Data Scientist. Заметил, что вам очень нравится вместе с нами разбирать решения задач с хакатонов. Сегодня расскажу, как я занял 4 место в соревновании по выявлению незаконных построек по спутниковым снимкам и что мне не хватило, чтобы попасть в топ-3 на Цифровом прорыве.
4 декабря приглашаем на онлайн-трансляцию открытой программы Magnetic Code Hackathon — первого хакатона крупнейшего российского ритейлера. Мы подготовили много интересного: техтолки с экспертами «Магнита» и «Яндекса» — нашего технологического партнёра, митап от agile-коучей «Магнита», питч-сессия финалистов, онлайн-развлечения и подарки за участие в них.
10 лет назад в Санта-Клара, Калифорния, неподалеку от Интела и NVidia, стоял кампус Huawei. В нем работали не только китайцы, но и вообще обычная публика Silicon Valley - индусы, американцы, даже русские попадались. Бизнесмены калифорнийских электронных компаний говорили "Huawei - это дверь в Китай" и заключали с ними крупные сделки.
Но американское правительство Huawei невзлюбило. Можно обсусоливать те или иные поводы, но коренная причина понятна - американскому правительству хочется, чтобы Америка сохраняла технологическое преимущество. Ибо если технология коммодифицируется и айфон не будет ничем особенным, то кто будет читать брошурки про продвижение демократии, распостраняемые американскими посольствами в других странах? Над ними будут просто смеяться.
И вот правительство начало Huawei жучить - и от Андроида отлучило, и от других критических технологий. Но на всяких хитрецов найдется гайка с левой резьбой. И вот что Huawei стал делать по этому поводу.
Подборка мероприятий на неделю