21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.
О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:
Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.
Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат. Оказывается, нет никакой необходимости делать машинное обучение в этом вопросе, просто потому что других данных о пользователе в социальной сети так много, что этого хватает, чтобы решить проблемы банальными вычислениями на уровне школы. Взяв, к примеру, его интересы и определив за счет большинства, какие интересы присущи более мужчинам, чем женщинам, или просто можно взять имя и фамилию и посмотреть, сколько людей с таким именем или фамилией обозначили свой пол как мужской или женский, и на основании этого принять решение.
Возникает другая проблема — эти вычисления с данными в таком объеме нужно уметь произвести и произвести эффективно. А это значит, что с большими данными можно ассоциировать и технологии их сбора и обработки, такие как Spark, Hadoop, Kafka и прочие.
Программа конференции
А теперь вернемся к конференции. На этом простом примере я хочу показать тот уровень, на котором будет строиться программа новой конференции JUG.ru Group по большим и умным данным SmartData 2017 Piter. Конференция пройдет 21 октября в Петербурге. Не будем говорить, зачем нужны большие данные, что из них можно получить и почему это все хорошо и полезно. Сконцентрируемся на трех аспектах:
- Data Science, с точки зрения научного подхода;
- Решение практических задач при помощи Big Data и использованием умных данных;
- Тулинг и решения, позволяющие решать задачи правильно и быстро.
Data Science


Практика





и директор АНО «Инфокультура», специализирующейся на работе с открытыми данными в машиночитаемых форматах, которые раскрывает правительство: экология, криминология, демография и т.д. Самая соль встречи с Иваном заключается в возможности задать ему вопросы в дискуссионной зоне — есть мнение, что он сможет в течение одного разговора сказать, имеет ли смысл развивать задуманный проект, или дело не выгорит. И это не гадание на кофейной гуще, а чистой воды аналитика.
Tools&Solutions
Не обойдем стороной и тулинг. В конце концов, то, как быстро и удобно будет решена задача, очень сильно зависит от инструментария. Свои доклады уже подтвердили разработчики Яндекс.Толоки, сервиса для обучения машинного интеллекта, Алексей Миловидов из ClickHouse и Александр Сибиряков из ScrapingHub. Естественно, это не все доклады, программа еще только начала набираться, всего будет три трека и не меньше 17 докладов, так что следите за изменениями на сайте. Из интересного — пытаемся вытащить кого-нибудь из PornHub, вот уж где highload и горы данных: по интересам, по географии, предпочтениям и куче всего такого.
Подавайте доклад

Если вы любите не только получать знания, но и делиться ими, обратите внимание: сейчас самое время подать нам доклад! Хотя наш строгий программный комитет включает в программу только по-настоящему хорошие выступления, тот же самый комитет и помогает спикерам довести их перспективные наработки до подходящего уровня — поэтому, даже если у вас нет большого опыта выступлений, но есть интересная тема, не бойтесь обращаться.
А если опыт есть, ссылайтесь на видеозаписи докладов, которые делали ранее, и это значительно ускорит принятие решения программным комитетом.
Главное требование: ваш доклад должен быть полезен другим разработчикам. Мы заинтересованы в докладах по следующим темам:
- Данные и их обработка (Spark, Kafka, Storm, Flink)
- Storages (Базы данных, NoSQL, IMDG, Hadoop, облачные хранилища)
- Data Science (Machine learning, нейросети, анализ данных)
Дискуссионные зоны

Как и на любой нашей конференций, на SmartData будут дискуссионные зоны. Наверняка, вам знакомо чувство, когда вы поднимаете руку, чтобы задать вопрос, а ведущий вдруг объявляет: «Осталось время для одного вопроса», – и конечно, выбор падает не на вас, а в перерыве спикер скрывается за дверьми спикерской комнаты.
Именно дискуссионные зоны отвечают на вопрос «зачем ходить на конференции, когда можно и в интернете всё узнать». Все просто: чтобы лично задать ваш конкретный вопрос. Что ж, у нас для этого созданы все условия: в длительных перерывах специально обученные волонтеры приведут спикера в выделенное пространство с доской для записей и иллюстраций, сидячими местами и возможностью схватить чашку кофе. И здесь никто не будет ограничивать ваши вопросы, комментарии и замечания. Теперь ни один вопрос не утонет в тайминге.
Регистрация
