Статьи / Закладки / Профиль Skolopendriy / Хабр

Дмитрий Сергеев @Skolopendriy

Senior Data Scientist

Профиль Публикации 2Комментарии 10Закладки 6

drheavy 28 июн 2021 в 07:22

ML-обработка результатов голосований Госдумы (2016-2021)

13 мин

6.9K

Python*Big Data*Машинное обучение*Блог компании OTUS

Всем привет! Недавно я наткнулся на сайт vote.duma.gov.ru, на котором представлены результаты голосований Госдумы РФ за весь период её работы — с 1994-го года по сегодняшний день. Мне показалось интересным применить некоторые техники машинного обучения, а так же обычной статистической обработки для выяснения следующих вопросов.

Каков диапазон степени корреляции депутатов внутри партий? Имеются ли депутаты, которые голосуют всегда так же, как большинство в их партии?
Смогут ли классические методы кластеризации автоматически разделить депутатов думы на фракции, к которым они относятся, основываясь только на их голосах?
Можно ли добиться приемлемого качества предсказания итога голосования, зная только исходный текст вопроса голосования?

Предполагаю, что людям, не знакомым с методами машинного обучения, может быть интересно посмотреть раздел 1, а также заглянуть в выводы — там дана краткая интерпретация всех результатов.

Итак, поехали.

Читать дальше →

+30

Siarshai 27 июл 2017 в 09:55

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

16 мин

41K

Data Mining*Математика*Машинное обучение*

Часть первая — Affinity Propagation
Часть вторая — DBSCAN
Часть третья — кластеризация временных рядов
Часть четвёртая — Self-Organizing Maps (SOM)
Часть пятая — Growing Neural Gas (GNG)

Пока другие специалисты по машинному обучению и анализу данных выясняют, как прикрутить побольше слоёв к нейронной сети, чтобы она ещё лучше играла в Марио, давайте обратимся к чему-нибудь более приземлённому и применимому на практике.

Кластеризация временных рядов — неблагодарное дело. Даже при группировке статических данных часто получаются сомнительные результаты, что уж говорить про информацию, рассеянную во времени. Однако нельзя игнорировать задачу, только потому что она сложна. Попробуем разобраться, как выжать из рядов без меток немного смысла. В этой статье рассматриваются подтипы кластеризации временных рядов, общие приёмы и популярные меры расстояния между рядами. Статья рассчитана на читателя, уже имевшего дело с последовательностями в data science: о базовых вещах (тренд, ARMA/ARIMA, спектральный анализ) рассказываться не будет.

Читать дальше →

+18

alconost 16 мар 2017 в 10:06

Я — самозванец

7 мин

53K

Веб-разработка*JavaScript*Программирование*Блог компании Alconost

Перевод

Писать об этом очень тяжело, даже тяжелее, чем признаться себе в этом. Я писал заявления об увольнении с любимых мест работы, заканчивал отношения, много в чем не преуспел и портил свою репутацию. Но чувства, которые я из-за этого испытывал, были временными: поначалу бывало очень плохо, но через пару месяцев я оставлял это позади и жил дальше. И все же есть одно чувство, от которого мне так и не удалось избавиться за всю свою карьеру: синдром самозванца.

Переведено в Alconost

«Самозванец» — сильное слово, но именно так я чувствую себя на протяжении всей своей карьеры профессионального веб-разработчика. Мне кажется, что я, хоть и не прекращаю учиться каждый день, все равно отстаю. Мне кажется, что меня воспринимают как эксперта там, где я считаю себя затаившейся катастрофой. Я полный самозванец. Мошенник.

Читать дальше →

+27

ahriman 5 июл 2016 в 09:14

Предсказание вероятности перехода каждого клиента компании в статус бывшего члена клуба

6 мин

7.5K

Блог компании MicrosoftМашинное обучение*

Авторы публикации — Дмитрий Сергеев и Юлия Петропавловская.

Недавно закончился первый в России Виртуальный хакатон от компании Microsoft при поддержке Forbes. Нашей команде, состоящей из двух человек, удалось занять первое место в номинации от WorldClass, в которой требовалось предсказать вероятности перехода каждого клиента компании в статус бывшего члена клуба. В этой статье мы бы хотели поделиться нашим решением и рассказать о его основных этапах.

Читать дальше →

+19

KestL 3 сен 2014 в 09:47

Django 1.7

1 мин

21K

Веб-разработка*Python*Django*

После почти года разработки вышел долгожданный релиз Django 1.7.

Ключевые изменения новой версии

Прекращена поддержка Python 2.6.
Добавлена поддержка миграций непосредственно в сам фреймворк. Здесь можно посмотреть инструкции о переходе с South.
Переработан механизм загрузки приложений. Теперь models.py — необязателен.
Изменения в Field API, в частности, добавлен обязательный метод deconstruct() для поддержки миграций.
Добавлена возможность вызова QuerySet напрямую из менеджера. Также теперь можно указывать необходимый менеджер при использовании связи между моделями.
Новая система для проверки проекта и диагностики ошибок, вместо validate добавлена команда check.

Читать дальше →

+47

kolupaeva 19 авг 2014 в 06:51

Перестаньте называть себя программистом и другие карьерные советы

19 мин

258K

Карьера в IT-индустрии

Перевод

Есть один курс, который я бы добавил в программу обучения по всякой инженерной специальности, и он не о компиляторах или сложности алгоритмов. Это “Введение в реальность индустрии”, ибо об этом не говорят и это приводит к никому не нужным обломам. Эта статья претендует стать README.txt для молодого инженера в деле построения карьеры. Ее цель — сделать вас счастливее, заполнив пробелы в образовании относительно того, как работает реальный мир. Я не призываю следовать написанному как подробному руководству, но я надеюсь, что эта информация окажется для вас более ценной, чем то ничто, что вам рассказали об этом в университете.

Читать дальше →

+173

175