Articles / Bookmarks / Profile of jandevel / Habr

How to become an author

Дмитрий Петухов @jandevel

Senior Data Scientist

Profile Publications 3Comments 63Bookmarks 63

Shmidtk Jun 29 2018 at 20:51

Погружаемся в динамику клиентской базы: когортный анализ и анализ потоков

4 min

15K

Data Mining*Product Management*Sales management*Business Models*

Продолжаю цикл статей по анализу продукта (начало)

В прошлой статье я погрузился в анализ выручки и разбил ее на 2 компоненты — MRPU и кол-во клиентов. Сегодня рассмотрим дальнейшие шаги в анализе и разложим на составляющие кол-во клиентов и их динамику.

Теперь общая схема анализа выглядит так:

Когортный анализ позволяет объяснить тенденции, протекающие в клиентской базе и пробрасывает прямой мост в воронку продаж и действия по удержанию и возвращению клиентов.

Читать дальше →

+12

ashagraev Jun 26 2018 at 14:00

ML-Блиц: разбор задач первого квалификационного раунда

10 min

28K

Sport programming*Entertaining tasksЯндекс corporate blogMachine learning*

23 июня 2018 года состоялся финал ML-Блица, конкурса по машинному обучению, организованного Яндексом. Ранее мы анонсировали его на Хабре и рассказывали, какие примерно задачи могут встретиться на реальном соревновании.

Теперь мы хотим поделиться с вами разборами задач одного из квалификационных раундов — самого первого. Двое участников сумели решить все задачи этого соревнования; 57 участников решили хотя бы одну задачу, а 110 совершили хотя бы по одной попытке сдать задание.

Хотя автор этих строк принимал участие в составлении задач конкурса, именно в первой квалификации его задачи не принимали участие. Так что я пишу этот разбор с позиции участника конкурса, который впервые увидел условия и хотел как можно быстрее получить как можно больше баллов.

Самым популярным языком программирования среди участников соревнования ожидаемо оказался python, поэтому я также использовал именно этот язык во всех случаях, когда требовалось написать код.

Все мои решения доступны на GitHub

Читать дальше →

+26

MaxRokatansky Jun 14 2018 at 15:47

Открытый вебинар: «Нейронные сети для задач фармацевтики»

1 min

2.5K

Machine learning*OTUS corporate blog

Всем привет! На этом открытом уроке Артур Кадурин расскажает вам о том, как нейронные сети помогают спасать жизни.

Также предлагаем вам узнать больше о нашем курсе Machine Learning на Дне открытых дверей сегодня в 20:00 по МСК!

+6

InOdinWeTrust Jun 8 2018 at 15:50

Как я осилил английский

13 min

347K

Learning languages

Всем привет. Я – айтишник «за 30», и я люблю английский язык. Так получилось, что на протяжении многих лет английский никак не хотел полюбить меня. Перед вами живой пример человека с «плохой памятью», «неспособностью к языкам», богатейшим опытом неудачного изучения английского как на курсах, так и самостоятельно, упущенными из-за незнания языка шансами и возникшими на этой почве комплексами. Все, что можно было сделать в изучении иностранного языка плохо, я попытался сделать еще хуже. Не смотря на все это, перед вами история с хэппи эндом, которая, верю, поможет кому-то избежать глупых ошибок, сэкономить время, избавится от иллюзий и предрассудков по поводу изучения нового языка с около нулевого уровня.

Читать дальше →

+147

reci Jun 3 2018 at 10:29

Выпуск#24: ITренировка — актуальные вопросы и задачи от ведущих компаний

6 min

7.2K

Entertaining tasksProgramming*Spice IT Recruitment corporate blog

В новый выпуск ITренировки вошли задачи от «синего гиганта», компании IBM.

КДПВ

КДПВ

В этой компании, с богатым историческим прошлым, тоже задают логические задачи на собеседованиях. Некоторые из них, самые интересные на наш взгляд, мы включили в подборку. Под катом Вас ждут задачи для соискателей, как обычно — не только простые, но и требующие размышления.

Читать дальше →

+5

leszla Jun 1 2018 at 00:38

Где и как изучать машинное обучение?

2 min

76K

Machine learning*Artificial Intelligence

Tutorial

Всем привет!

Ни для кого не секрет, что интерес к машинному обучению и искусственному интеллекту растет в лучшем случае по экспоненте. Тем временем мой Яндекс Диск превратился в огромную свалку пейперс, а закладки в Google Chrome превратились в список, длина которого стремится к бесконечности с каждым днем. Таким образом, дабы упростить жизнь себе и вам, решил структурировать информацию и дать множество ссылок на интересные ресурсы, которые изучал я и которые рекомендую изучать вам, если вы только вначале пути (буду пополнять список постоянно).

Путь для развития новичка я вижу примерно так:

Untitled_presentation

Читать дальше →

+41

AloneCoder May 25 2018 at 10:10

15 советов по работе с Github

8 min

62K

Open source*VK corporate blogGit*Version control systems*GitHub*

Tutorial

Translation

Я 10 лет разрабатываю ПО, участвовал в нескольких open source-проектах и в многочисленных не-open source-проектах, работал в больших и малых командах, и везде мы использовали Github в качестве репозитория версионирования.

За это время я перепробовал разные рабочие процессы, и хочу поделиться советами, как построить эффективный и прагматичный рабочий процесс по созданию и сопровождению качественного ПО, который можно применять в любом проекте.

Читать дальше →

+46

trehleb May 23 2018 at 18:25

Классические алгоритмы и структуры данных на JavaScript

2 min

93K

JavaScript*Programming*Algorithms*

Привет Всем! Я недавно запустил на GitHub проект JavaScript Algorithms and Data Structures, который содержит примеры классических алгоритмов и структур данных написанных на JavaScript с объяснениями, примерами и ссылками для дальнейшего изучения (в частности на соответствующие YouTube видео).

Основная задача проекта — помочь программистам в изучении и применении алгоритмов и сделать это на JavaScript-е.

Читать дальше →

+66

ICLServices May 24 2018 at 13:58

Как искусственный интеллект и машинное обучение помогают сотрудникам повысить свою квалификацию

6 min

8.7K

ГК ICL corporate blogMachine learning*Research and forecasts in IT*Personnel Management*IT career

Translation

В наши дни технологии совершенствуются так быстро, что компаниям необходимо менять подходы к обучению и развитию и придерживаться более персонализированного подхода. Искусственный интеллект и машинное обучение могут помочь им в этом.

Как именно? Читайте в этом переводе.

Читать дальше →

+7

reci May 22 2018 at 15:18

Выпуск#22: ITренировка — актуальные вопросы и задачи от ведущих компаний

5 min

7.4K

Entertaining tasksProgramming*Spice IT Recruitment corporate blog

Мы подготовили для Вас новый выпуск, ставшей уже традиционной, ITренировки — подборки задач с собеседований в IT-компании мира.
КДПВ

КДПВ

В отобранные задачи попали задачи с собеседований Samsung. Соискателю также могут задать вопрос про шифр и Шерлока Холмса (нет, не пляшушие человечки, как можно было подумать). Уровень сложности мы постарались варьировать — от простых до серьезных.

Читать дальше →

+7

bzq May 23 2018 at 13:57

Олимпиада SQL: разбор задачи про календарь

9 min

23K

Entertaining tasksPostgreSQL*SQL*

Здравствуйте, в эфире Радио SQL!

Продолжаем тему популяризации языка SQL среди широких масс IT-населения нашей планеты, на этот раз в русскоязычной его части. Впрочем, жители других планет, тоже подтягивайтесь.

Настраивайтесь на нашу гравитационную волну, смахивайте слизь, поправляйте панцири и устраивайтесь поудобнее — мы начинаем!..

В этой статье я собираюсь провести разбор задачи про календарь, которую я давал на Олимпиаде по SQL, про которую я уже писал раньше. Захватывающая рекурсия и загадочные агрегатные функции, вложенные запросы и ~~вооружённые~~ группировки данных — всё это нас ждёт сегодня!

Обращаю внимание, что это именно разбор, а не готовое решение. Чтобы избежать тупого copy-paste, я намерено предприму пару действий, которые позволят получить готовый результат только тем, кто немного поработает головой.

Забор раздачи здесь

+21

Skyeng-Habr May 17 2018 at 08:30

7 типичных ошибок в английском, которые мы делаем при общении с иностранцами

4 min

242K

Skyeng corporate blogReading room

Помните анекдот про Штирлица, в котором ничего не выдавало советского разведчика, даже волочащийся парашют и буденовка? Примерно такая же история регулярно происходит с нашими соотечественниками при общении с носителями английского языка. Американец Дэниел на канале онлайн-школы Skyeng рассказал, какие фразы и ошибки выдают в нас иностранцев, а также как этого избежать.

Читать дальше →

+55

ph_piter May 4 2018 at 18:08

Экскурсия по PyTorch

17 min

47K

Python*Programming*Algorithms*Издательский дом «Питер» corporate blogMachine learning*

Translation

Привет, Хабр!

Еще до конца мая у нас выйдет перевод книги Франсуа Шолле "Глубокое обучение на Python" (примеры с использованием библиотек Keras и Tensorflow). Не пропустите!

Но мы, естественно, смотрим в надвигающееся будущее и начинаем присматриваться к еще более инновационной библиотеке PyTorch. Сегодня вашему вниманию предлагается перевод статьи Питера Голдсборо, готового устроить вам ~~долгую прогулку~~ ознакомительную экскурсию по этой библиотеке. Под катом много и интересно.

Читать дальше →

+21

Monnoroch Apr 11 2018 at 12:26

Generative adversarial networks

12 min

27K

Programming*Algorithms*Mathematics*Machine learning*

В прошлой статье мы рассмотрели простейшую линейную генеративную модель PPCA. Вторая генеративная модель, которую мы рассмотрим — Generative Adversarial Networks, сокращенно GAN. В этой статье мы рассмотрим самую базовую версию этой модели, оставив продвинутые версии и сравнение с другими подходами в генеративном моделировании на следующие главы.

Читать дальше →

+21

alextheraven Apr 11 2018 at 13:48

Как в hh.ru тестируют поиск по вакансиям

4 min

6.9K

Search engines*hh.ru corporate blogWeb services testing*Machine learning*

Я уже делился рассказом о нашем опыте применения искусственного интеллекта в поиске на hh.ru, а сегодня хотел бы остановиться на измерении качества этого поиска поподробнее.

Для нормальной работы поиска крайне важна система метрик — локальных, A/B-тестов, очередей на проде и т. д., и эта система требует отдельного внимания и ресурсов. Неправильно думать, что достаточно просто запилить крутой ML и прикрутить все эти метрики «скотчем»; недостаточно также измерять качество работы уже работающей системы — не так уж важно, использует ли она ML или представляет собой Lucene «из коробки».

Читать дальше →

+16

dtyurev Dec 27 2017 at 16:12

Git: советы новичкам – часть 1

8 min

141K

Git*Playrix corporate blog

Tutorial

Recovery Mode

В Playrix приходит много новых сотрудников и большинство из них не работали с Git. Особенно это касается гейм-дизайнеров и художников. Хотя и для программистов это не редкость – опыт работы с другими системами контроля версий не слишком помогает. Например, часто встречается опыт работы с SVN. Но Git заметно отличается по идеологии. Заучить, какие кнопки нажимать, в большинстве случаев не сложно, но шаг в сторону – и уже трудно понять, что происходит.

Поэтому мы решили написать ознакомительный материал. Мы поговорим о системе контроля версий и логике её работы, с самых азов. С Git можно работать с помощью разных клиентов, потому в статье не пойдет речь об интерфейсе пользователя. Это может показаться непривычным, но это сделано намеренно. Вместо этого мы сфокусируемся на рабочем каталоге, коммитах, ветках, командах pull, push и прочих. Когда вы разберетесь в этих понятиях, вам останется выбрать один из Git-клиентов и освоить его интерфейс.

Читать дальше →

+29

Arhimagic Jan 18 2018 at 16:34

Feature Engineering, о чём молчат online-курсы

7 min

25K

VK corporate blogData Mining*Big Data*Machine learning*Studying in IT

Sherlock by ThatsWhatSheSayd

Чтобы стать великим сыщиком, Шерлоку Холмсу было достаточно замечать то, чего не видели остальные, в вещах, которые находились у всех на виду. Мне кажется, что этим качеством должен обладать и каждый специалист по машинному обучению. Но тема Feature Engineering’а зачастую изучается в курсах по машинному обучению и анализу данных вскользь. В этом материале я хочу поделиться своим опытом обработки признаков с начинающими датасаентистами. Надеюсь, это поможет им быстрее достичь успеха в решении первых задач. Оговорюсь сразу, что в рамках этой части будут рассмотрены концептуальные методы обработки. Практическую часть по этому материалу совсем скоро опубликует моя коллега Osina_Anya.

Один из популярных источников данных для машинного обучения — логи. Практически в любой строчке лога есть время, а если это web-сервис, то там будут IP и UserAgent. Рассмотрим, какие признаки можно извлечь из этих данных.

Читать дальше →

+49

ternaus Aug 13 2015 at 11:02

Kaggle. Предсказание продаж, в зависимости от погодных условий

16 min

23K

Sport programming*Data Mining*Machine learning*

Не далее, как в прошлую пятницу у меня было интервью в одной компании в Palo Alto на позицию Data Scientist и этот многочасовой марафон из технических и не очень вопросов должен был начаться с моей презентации о каком-нибудь проекте, в котором я занимался анализом данных. Продолжительность — 20-30 минут.

Data Science — это необъятная область, которая включает в себя много всего. Поэтому, с одной стороны, есть из чего выбрать, но, с другой стороны, надо было подобрать проект, который будет правильно воcпринят публикой, то есть так, чтобы слушатели поняли поставленную задачу, поняли логику решения и при этом могли проникнуться тем, как подход, который я использовал может быть связан с тем, чем они каждый день занимаются на работе.

За несколько месяцев до этого в эту же компанию пытался устроиться мой знакомый индус. Он им рассказывал про одну из своих задач, над которой работал в аспирантуре. И, навскидку, это выглядело хорошо: с одной стороны, это связано с тем, чем он занимается последние несколько лет в университете, то есть он может объяснять детали и нюансы на глубоком уровне, а с другой стороны, результаты его работы были опубликованы в рецензируемом журнале, то есть это вклад в мировую копилку знаний. Но на практике это сработало совсем по-другому. Во-первых, чтобы объяснить, что ты хочешь сделать и почему, надо кучу времени, а у него на всё про всё 20 минут. А во-вторых, его рассказ про то, как какой-то граф при каких-то параметрах разделяется на кластеры, и как это всё похоже на фазовый переход в физике, вызвал законный вопрос: «А зачем это надо нам?». Я не хотел такого же результата, так что я не стал рассказывать про: «Non linear regression as a way to get insight into the region affected by a sign problem in Quantum Monte Carlo simulations in fermionic Hubbard model.»

Я решил рассказать про одно из соревнований на kaggle.com, в котором я участвовал.

Читать дальше →

+10

IvanLobov Mar 26 2015 at 21:25

Как попасть в топ на Kaggle, или Матрикснет в домашних условиях

9 min

32K

Search engines*Python*Data Mining*

Хочу поделиться опытом участия в конкурсе Kaggle и алгоритмами машинного обучения, с помощью которых добрался до 18-го места из 1604 в конкурсе Avazu по прогнозированию CTR (click-through rate) мобильной рекламы. В процессе работы попытался воссоздать оригинальный алгоритм Мактрикснета, тестировал несколько вариантов логистической регрессии и работал с характеристиками. Обо всём этом ниже, плюс прикладываю полный код, чтобы можно было посмотреть, как всё работает.

Рассказ делю на следующие разделы:
1. Условия конкурса;
2. Создание новых характеристик;
3. Логистическая регрессия – прелести адаптивного градиента;
4. Матрикснет – воссоздание полного алгоритма;
5. Ускорение машинного обучения в Python.

Читать дальше →

+40

dcc0 Nov 18 2017 at 20:36

О матрице поворота простыми словами

Medium

4 min

47K

Mathematics*Reading room

Когда Пифагор плыл по реке Хуанхэ, он увидел у берега, в лодке, задремавшего рыбака, в конической шляпе и с бамбуковой удочкой в руках.

Читать дальше →

+11

1