С точностью до сотых: топ-10 докладов SmartData 2017 / Хабр

Зрители конференции SmartData — люди, которые любят работать с данными. Надо полагать, что и оценки докладам после прошлогодней конференции они выставляли очень вдумчиво.

А теперь по этим оценкам мы составили топ-10 видеозаписей. И заодно, чтобы порадовать любителей данных, указали по каждому из десяти докладов все сопутствующие числа: место в топе, точный зрительский рейтинг, количество зрителей.

Вообще говоря, зачастую у соседних позиций в топе рейтинги различаются незначительно. Так что, пожалуй, не стоит придавать много значения «кто идёт за кем» — важнее, что все эти доклады получили высокие оценки. Но с другой стороны, как же это не придавать много внимания числам, когда это так увлекательно!

Neurona: зачем мы научили нейронную сеть писать стихи в духе Курта Кобейна?

Спикер: Иван Ямщиков
Место: 1
Рейтинг: 4,51 ± 0,08
Число зрителей: ~200
Презентация доклада

Явным лидером конференции стал закрывающий кейноут от создателя проектов «Нейронная Оборона» и Neurona. Это доступное выступление, не требующее от зрителя гигантской подготовки — но в то же время это и не просто стотысячное объяснение «как работают нейронные сети». Это вроде бы «развлекательный» формат (вряд ли услышанное немедленно скажется на вашем рабочем проекте) — но в долгосрочной перспективе всё это может быть не только очень интересно, но и полезно. В общем, стоит ли удивляться, что мы позвали Ивана участвовать и в приближающейся SmartData 2018.

От клика к прогнозу и обратно: Data Science-пайплайны в Одноклассниках

Спикер: Дмитрий Бугайченко
Место: 2
Рейтинг: 4,36 ± 0,08
Число зрителей: ~140
Презентация доклада

А вот тут всё наоборот. Во-первых, это не общее «что может нам дать машинное обучение», а конкретика «как именно мы всё реализуем». И доклад не о ML самом по себе (персонализация новостной ленты приведена просто в качестве примера), а о всём сопутствующем: «что надо сделать, чтобы вся эта ML-красота работала». В общем, если выступление Ямщикова может заинтересовать даже широкую аудиторию, то здесь интересно будет только лично связанным с машинным обучением, зато они могут многое для себя вынести.

CatBoost — следующее поколение градиентного бустинга

Спикер: Анна Вероника Дорогуш
Место: 3
Рейтинг: 4,32 ± 0,12
Число зрителей: ~100
Презентация доклада

Если градиентный бустинг — не ваша специализация, и тема доклада вызвала ощущение «там небось нюансы для тех, кто уже этим вовсю занимается», развеем опасения. Доклад дружелюбен к новичкам и не ныряет сразу в омут с головой, а объясняет сначала базовые вещи. А учитывая, что за прошедший год библиотека CatBoost от Яндекса стала краше и популярнее прежнего, иметь представление о ней полезно, даже если прямо сейчас вам не приходится иметь с ней дело — и доклад как раз может стать хорошим введением.

Назад в будущее современной банковской системы

Спикер: Владимир Красильщик
Место: 4
Рейтинг: 4,31 ± 0,17
Число зрителей: ~80
Презентация доклада

Как быть, если из-за eventually consistency у вас данные квартального отчёта расходятся с ежемесячными, и у аудиторов с регуляторами возникают вопросы? Владимир Красильщик объясняет, что ключевым понятием тут становится битемпоральность: есть «когда событие произошло», а есть «когда система о нём узнала», необходимо работать с обеими этими шкалами и демонстрировать сторонним проверяющим обе сразу. Этим доклад не ограничивается, там ещё много всего — например, думали ли вы, что на IT-конференции услышите фразу «справедливости нет, и не надо пытаться её создать»?

Имя — это фича

Спикер: Виталий Худобахшов
Место: 5
Рейтинг: 4,28 ± 0,08
Число зрителей: ~280
Презентация доклада

Самое парадоксальное выступление конференции, заставляющее недоумённо чесать в затылке. С одной стороны, любому разумному человеку совершенно очевидно: нет никаких заметных причин для корреляции имени человека (если речь о популярных русских именах) и того, будет ли этот человек состоять в отношениях. С другой стороны, Виталий предъявляет данные, показывающие обратное. Точного объяснения нет у него самого, но по-настоящему убедительных возражений тоже ни у кого не нашлось. Можете попробовать поискать сами.

Нет данных? Нет проблем! Deep Learning на CGI

Спикер: Иван Дрокин
Место: 6
Рейтинг: 4,26 ± 0,18
Число зрителей: ~40
Презентация доклада

Как известно, для глубинного обучения недостаточно алгоритмов — нужны начальные данные для обучения. В итоге хороший дата-сет стал ценнейшим ресурсом. Но что делать, если сейчас его у вас нет, а вы не Google и не можете вкладывать гигантские ресурсы? Оказывается, не всегда требуется брать «настоящие» данные из реального мира, и при определённых условиях их можно в прямом смысле слова генерировать. В докладе разобран конкретный подобный случай.

Глубокие свёрточные сети для обнаружения объектов и сегментации изображений

Спикер: Сергей Николенко
Место: 7
Рейтинг: 4,24 ± 0,17
Число зрителей: ~80
Презентация доклада

Если вы ещё далеки от машинного/глубокого обучения в целом, то могут хорошо подойти первые 20 минут этого доклада: там обстоятельное введение в тему с историческим экскурсом, начинающимся ещё с 50-х. А если про это в целом всё понимаете, но вот конкретно в подтеме глубоких свёрточных сетей не разбираетесь, тогда можете сразу пропускать вступление и обращать внимание на вторую половину доклада, где переходят именно к convoluted neural networks.

Hadoop high availability: опыт Badoo

Спикер: Александр Крашенников
Место: 8
Рейтинг: 4,22 ± 0,14
Число зрителей: ~100
Презентация доклада

Кажется, помимо понятия «большие данные», пригодилось бы ещё «растущие данные», потому что рост диктует свою специфику. Когда-то у Badoo были на порядки меньшие объёмы данных и один подход к ним, затем объёмы возросли и потребовались изменения — а при этом надо учитывать, что завтра всё может вырасти ещё сильнее, делая всё «с запасом».

В компании заинтересовались сочетанием «Hadoop» и «реалтайм» ещё тогда, когда между этими двумя словами обычно писали «несовместимо», а теперь рассказали о своём опыте работы с Hadoop и обеспечения в его случае high availability. Бонус: немного творчества Василия Ложкина на слайдах.

Сегментируем 600 миллионов пользователей в режиме реального времени каждый день

Спикер: Артём Маринов
Место: 9
Рейтинг: 4,21 ± 0,09
Число зрителей: ~120
Презентация доклада

Тут проект очень отличается от Badoo: не дейтинг, а DMP (data management platform), где требуется выделять среди аудитории сегменты вроде «домохозяйки с автомобилем старше пяти лет». Но, во-первых, тут тоже большие масштабы (порядка ста тысяч событий в секунду). А во-вторых, тут нужно быть ещё более готовым к росту: «среди источников данных — установки пикселя, если вдруг завтра сверхпопулярный сайт поставит к себе ваш пиксель — пойдёт громадный поток, с которым надо будет справиться». С помощью каких технологий справляются и как именно их используют? Ответы в докладе.

Распределённое ML на больших данных: опыт построения рекомендательной системы в ivi

Спикер: Борис Шминке
Место: 10
Рейтинг: 4,21 ± 0,09
Число зрителей: ~100
Презентация доклада

Наконец, последний доклад — тоже «про инфраструктуру, а не алгоритмы», и тоже на основе опыта крупного продукта. Когда-то ivi начинали внедрять рекомендации с использования стороннего сервиса, предоставлявшего «recommendations-as-a-service». Затем «выросли» из него и начали делать собственную систему. На Хабре компания писала о ней ещё в 2014-м, а из доклада можно узнать об актуальном положении вещей.

Если эти доклады заинтересовали, обращаем внимание: этой осенью состоится SmartData 2018. Отдельные спикеры из этого топ-10 вернутся с новыми докладами, будут и совершенно новые имена. Самую актуальную информацию о программе всегда можно увидеть на сайте, там же можно купить билеты — и их цена постепенно растёт, так что стоит задуматься уже сейчас.

С точностью до сотых: топ-10 докладов SmartData 2017