Компании собирают всё больше информации о пользователях. Но мало её получить, важно понимать, какие именно данные и как будут использоваться. Приглашаем продуктовых и data-аналитиков на Avito Product Analytics Meetup. Поговорим о том, как работать с хранилищем данных и масштабировать его для высоких нагрузок, о персонализации сайта для пользователей на основе customer journey map и об измерении удовлетворенности пользователей. Под катом — тезисы докладов, ссылки на регистрацию и прямую трансляцию.

Big Data *
Большие данные и всё о них
SAS: мы анализировали данные и обучали модели задолго до того, как это стало модным

Наша аналитическая платформа работает в WalMart, Bank of America, Bank of China, Сбербанке, МТС. SAS как предмет преподают в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и других ВУЗах. А под катом — наша краткая история-знакомство, с которой мы хотим открыть наш блог на Хабре.
Как работают дата-центры: сегодня и завтра

Дата-центр — это помещение, которое предприятие использует для хранения критически важных для функционирования компании приложений и информации, поэтому по мере их усовершенствования и развития, важно продумать все детали относительно поддержания надежности и безопасности в течение длительного времени.
Машинный интеллект ищет ответы на загадки Вселенной. Как — расскажем на открытом семинаре AI@MIPT

27 ноября на Физтехе состоится очередная встреча из цикла семинаров по искусственному интеллекту «Машинное обучение для поиска темной материи в экспериментах ЦЕРН». Андрей Устюжанин, руководитель ЛАборатории Методов анализа Больших ДАнных (LAMBDA) ВШЭ, доцент кафедры информатики МФТИ и руководитель совместных проектов Школы анализа данных Яндекса и ЦЕРНа расскажет, как LAMBDA работает над применением методов машинного обучения и анализа данных для решения задач физики частиц и астрофизики.
Семинар начнется в 18:30 в аудитории 107 Биокорпуса МФТИ. Для очного участия необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте.
Коллективный портрет участников конкурса MERC-2017

Миграция с мэйнфреймов: как убедить руководство?

Если требуется провести модернизацию построенной на базе мэйнфреймов инфраструктуры, на которой в вашей компании работают унаследованные (legacy) приложения, а руководство компании сомневается в необходимости такой модернизации, то следующие аргументы помогут убедить ваше начальство.
Как мы создавали новый тип тарифов «Включайся»

Топ-3 анонсов с NetApp Insight 2017

Привет, Хабр! На этой неделе я в Берлине на конференции NetApp Insight и подготовил для вас репортаж о том, что успел увидеть и пощупать.
NetApp Insight традиционно проходит в Европе в середине ноября. Это большая конференция, на которой компания NetApp представляет свое видение технологий работы с данными и анонсирует обновления линеек продуктов. Каждый день проходят сотни (!) технологических сессий с детальной информацией из первых рук. Можно сравнить эту конференцию с VMWorld, а из проходящих в России – с Highload++.
В конференции принимают участие тысячи людей – покупатели, партнеры, сотрудники NetApp из разных стран. В этом году здесь представлено 80 стран.
Таргетирование приложения «Модератор Одноклассников»
У социальной сети Одноклассники, как и у других интернет-ресурсов, где пользователи могут загружать любой контент, существует задача фильтровать изображения, нарушающие законы Российской Федерации и лицензионное соглашение самой площадки. Таким контентом в соцсети считается порнография в открытом доступе, а также сцены насилия, жестокости и прочие ужасные картинки.
Ежедневно в социальную сеть загружается более 20 миллионов картинок. Для того чтобы их проверить, наши инструменты на основе нейронных сетей автоматически фильтруют картинки определенных категорий. Однако часть контента мы пропускаем через ручную разметку, так как не всегда нейронная модель однозначно может определить, есть запрещенный контент на картинке или нет. Наш любимый пример пограничного контента — диван из разряда «показалось».

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

Обнаружение птиц с помощью Azure ML Workbench

Использование R для «промышленной» разработки
Является продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»
Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.
Как мозг бьет дерево, или как мы сделали рекомендательную систему с помощью нейронной сети
Как бы вы сделали рекомендательную систему? У многих в голове сразу появилась картина как они импортят и стакают XGBoost CatBoost. Изначально у нас в голове появилась та же картина, но мы решили на волне хайпа сделать это на нейронных сетях, благо времени было много. Опыт их создания, тестирование, результаты и наши мысли описаны далее.
Ближайшие события
Digital Transformation: Начало

ИИ на Физтехе: цифровая экономика, блокчейн, чат-боты и вот это всё

Осенью Физтех запустил цикл семинаров по искусственному интеллекту. В ходе обсуждений рассматриваются различные темы мира машинного обучения и технологического предпринимательства: как и почему интеллектуальные системы станут доминирующей частью нашей жизни и экономики в ближайшие годы, какие инициативы и проекты развиваются за рубежом, тренды рынка и как их создавать, что можно разрабатывать вместе с командами лабораторий МФТИ уже сейчас и как втянуться в союз и сотрудничество с «умными» машинами. Материалы курса доступны в Telegram-канале и группе AI@MIPT Вконтакте.
Третья встреча на тему: «Проект iPavlov. Как на Физтехе разрабатывают разговорный искусственный интеллект» состоится 13 ноября в 18:30 в 107 Биокорпуса МФТИ. Для очного участия в семинаре необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте.
Глобальная теплокарта Strava: теперь в 6 раз горячее
Наша глобальная теплокарта — самая крупная и подробная, и это самый прекрасный в мире набор данных такого рода. Это прямая визуализация активностей глобальной сети атлетов Strava. Чтобы дать представление о масштабе, то новая теплокарта включает в себя:
- 1 миллиард активностей
- 3 триллиона точек долготы/широты
- 13 триллионов пикселей после растрирования
- 10 терабайт исходных данных
- Общая дистанция маршрутов: 27 миллиардов километров
- Запись общего времени активности: 200 тысяч лет
- 5% земной суши покрыто тайлами

Тепловая карта Москвы демонстрирует функцию поворота/наклона в Mapbox GL
Приглашаем на Sberbank Data Science Day 11 ноября
Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.
Подробная программа и ссылка на регистрацию — под катом.
R, Asterisk и платяной шкаф
Является продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.
По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.
Проведение выборов с помощью блокчейна, идентификация пользователя по голосу и приложение для онлайн-собеседований

Вклад авторов
moat 815.0Aleron75 528.0Syurmakov 524.4alexanderkuk 501.03Dvideo 490.0i_shutov 488.0m31 483.2shukshinivan 460.0s_valuev 446.0o6CuFl2Q 445.0