Как стать автором
Поиск
Написать публикацию
Обновить
99.95

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

SAS: мы анализировали данные и обучали модели задолго до того, как это стало модным

Время на прочтение9 мин
Количество просмотров23K


Наша аналитическая платформа работает в WalMart, Bank of America, Bank of China, Сбербанке, МТС. SAS как предмет преподают в МГУ, ВШЭ, МИФИ, МГТУ им. Баумана, МЭИ, МИИТ и других ВУЗах. А под катом — наша краткая история-знакомство, с которой мы хотим открыть наш блог на Хабре.
Читать дальше →

Как работают дата-центры: сегодня и завтра

Время на прочтение6 мин
Количество просмотров14K
Будущее дата-центров заключается в облачных решениях, гиперконвергентной инфраструктуре и более мощном оборудовании



Дата-центр — это помещение, которое предприятие использует для хранения критически важных для функционирования компании приложений и информации, поэтому по мере их усовершенствования и развития, важно продумать все детали относительно поддержания надежности и безопасности в течение длительного времени.
Читать дальше →

Машинный интеллект ищет ответы на загадки Вселенной. Как — расскажем на открытом семинаре AI@MIPT

Время на прочтение2 мин
Количество просмотров3.7K
image

27 ноября на Физтехе состоится очередная встреча из цикла семинаров по искусственному интеллекту «Машинное обучение для поиска темной материи в экспериментах ЦЕРН». Андрей Устюжанин, руководитель ЛАборатории Методов анализа Больших ДАнных (LAMBDA) ВШЭ, доцент кафедры информатики МФТИ и руководитель совместных проектов Школы анализа данных Яндекса и ЦЕРНа расскажет, как LAMBDA работает над применением методов машинного обучения и анализа данных для решения задач физики частиц и астрофизики.

Семинар начнется в 18:30 в аудитории 107 Биокорпуса МФТИ. Для очного участия необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте
Читать дальше →

Коллективный портрет участников конкурса MERC-2017

Время на прочтение5 мин
Количество просмотров1.4K
Подходит к концу наш первый конкурс по машинному обучению и анализу данных — Multimodal Emotion Challenge Recognition (MERC-2017) на площадке Datacombats. В этом посте мы хотели бы представить небольшой анализ аудитории, своеобразный коллективный «портрет».


Читать дальше →

Миграция с мэйнфреймов: как убедить руководство?

Время на прочтение6 мин
Количество просмотров4.2K

Если требуется провести модернизацию построенной на базе мэйнфреймов инфраструктуры, на которой в вашей компании работают унаследованные (legacy) приложения, а руководство компании сомневается в необходимости такой модернизации, то следующие аргументы помогут убедить ваше начальство.
Читать дальше →

Как мы создавали новый тип тарифов «Включайся»

Время на прочтение4 мин
Количество просмотров9.6K
Мы постоянно и в деталях оцениваем то, как наши абоненты потребляют различные услуги, и собираем большие-большие данные. В конце весны по итогам анализа этих данных была запущена новая тарифная линейка «Включайся!». В ней мы пошли дальше простого предложения определенных пакетов смс/минут/мегабайт, а наполнили тарифы сервисами в зависимости от использования этих гигабайтов. В этом посте мы поделимся интересными наблюдениями, которые сподвигли нас на эти шаги.


Читать дальше →

Топ-3 анонсов с NetApp Insight 2017

Время на прочтение4 мин
Количество просмотров2.4K


Привет, Хабр! На этой неделе я в Берлине на конференции NetApp Insight и подготовил для вас репортаж о том, что успел увидеть и пощупать.

NetApp Insight традиционно проходит в Европе в середине ноября. Это большая конференция, на которой компания NetApp представляет свое видение технологий работы с данными и анонсирует обновления линеек продуктов. Каждый день проходят сотни (!) технологических сессий с детальной информацией из первых рук. Можно сравнить эту конференцию с VMWorld, а из проходящих в России – с Highload++.

В конференции принимают участие тысячи людей – покупатели, партнеры, сотрудники NetApp из разных стран. В этом году здесь представлено 80 стран.
Читать дальше →

Таргетирование приложения «Модератор Одноклассников»

Время на прочтение7 мин
Количество просмотров12K

У социальной сети Одноклассники, как и у других интернет-ресурсов, где пользователи могут загружать любой контент, существует задача фильтровать изображения, нарушающие законы Российской Федерации и лицензионное соглашение самой площадки. Таким контентом в соцсети считается порнография в открытом доступе, а также сцены насилия, жестокости и прочие ужасные картинки.


Ежедневно в социальную сеть загружается более 20 миллионов картинок. Для того чтобы их проверить, наши инструменты на основе нейронных сетей автоматически фильтруют картинки определенных категорий. Однако часть контента мы пропускаем через ручную разметку, так как не всегда нейронная модель однозначно может определить, есть запрещенный контент на картинке или нет. Наш любимый пример пограничного контента — диван из разряда «показалось».


Читать дальше →

29 ноября, Харьков: доклад «Analytics in a Gaming Company: Big Data Architecture and Tools»

Время на прочтение1 мин
Количество просмотров2.5K
Как построить систему аналитики для проектов с миллионами пользователей?


Читать дальше →

Обнаружение птиц с помощью Azure ML Workbench

Время на прочтение19 мин
Количество просмотров5.5K
Задумывались ли вы, что перед биологами, помимо всего прочего стоит ряд важных задач? Им необходимо анализировать огромные объёмы информации для отслеживания динамики популяции, выявления редких видов и оценки воздействия. Под катом мы хотим рассказать вам о проекте по идентификации красноногих моевок на фотографиях, сделанных с помощью камер слежения. Вы узнаете подробности о разметке данных, обучении модели на платформе Azure Machine Learning Workbench с использованием Microsoft Cognitive Toolkit (CNTK) и Tensorflow, а также развертывание веб-службы прогнозирования.


Читать дальше →

Использование R для «промышленной» разработки

Время на прочтение8 мин
Количество просмотров15K

Является продолжением предыдущих публикаций. Не секрет, что при упоминании R в числе используемых инструментов вторым по популярности является вопрос о возможности его применения в «промышленной разработке». Пальму первенства в России неизменно держит вопрос «А что такое R?»


Попробуем разобраться в аспектах и возможности применения R в «промышленной» разработке.


Читать дальше →

Как мозг бьет дерево, или как мы сделали рекомендательную систему с помощью нейронной сети

Время на прочтение8 мин
Количество просмотров14K

Как бы вы сделали рекомендательную систему? У многих в голове сразу появилась картина как они импортят и стакают XGBoost CatBoost. Изначально у нас в голове появилась та же картина, но мы решили на волне хайпа сделать это на нейронных сетях, благо времени было много. Опыт их создания, тестирование, результаты и наши мысли описаны далее.


Читать дальше →

Digital Transformation: Начало

Время на прочтение7 мин
Количество просмотров24K
Привет, Хабр! Сегодня мы поговорим с вами о цифровой трансформации (digital transformation), том самом buzzword, про который все говорят, но никто не знает как это делать. Это первая статья из цикла, в которой будет больше теории. Под катом вы узнаете о том, чем трансформация отличается от автоматизации на примере бизнеса бабушки, найдёте топ-10 кейсов от Microsoft, а также расскажем немного о новой программе Tech Acceleration.


Читать дальше →

Ближайшие события

ИИ на Физтехе: цифровая экономика, блокчейн, чат-боты и вот это всё

Время на прочтение2 мин
Количество просмотров6.3K
image

Осенью Физтех запустил цикл семинаров по искусственному интеллекту. В ходе обсуждений рассматриваются различные темы мира машинного обучения и технологического предпринимательства: как и почему интеллектуальные системы станут доминирующей частью нашей жизни и экономики в ближайшие годы, какие инициативы и проекты развиваются за рубежом, тренды рынка и как их создавать, что можно разрабатывать вместе с командами лабораторий МФТИ уже сейчас и как втянуться в союз и сотрудничество с «умными» машинами. Материалы курса доступны в Telegram-канале и группе AI@MIPT Вконтакте.

Третья встреча на тему: «Проект iPavlov. Как на Физтехе разрабатывают разговорный искусственный интеллект» состоится 13 ноября в 18:30 в 107 Биокорпуса МФТИ. Для очного участия в семинаре необходимо предварительно зарегистрироваться. Лекция также будет транслироваться онлайн на официальной странице Физтеха Вконтакте.
Читать дальше →

Глобальная теплокарта Strava: теперь в 6 раз горячее

Время на прочтение8 мин
Количество просмотров24K
Рад объявить о первом крупном обновлении глобальной тепловой карты в Strava Labs c 2015 года. Это обновление включает в себя в шесть раз больше данных, чем раньше —  в сумме 1 миллиард активностей со всей базы Strava по сентябрь 2017 года.

Наша глобальная теплокарта — самая крупная и подробная, и это самый прекрасный в мире набор данных такого рода. Это прямая визуализация активностей глобальной сети атлетов Strava. Чтобы дать представление о масштабе, то новая теплокарта включает в себя:

  • 1 миллиард активностей
  • 3 триллиона точек долготы/широты
  • 13 триллионов пикселей после растрирования
  • 10 терабайт исходных данных
  • Общая дистанция маршрутов: 27 миллиардов километров
  • Запись общего времени активности: 200 тысяч лет
  • 5% земной суши покрыто тайлами


Тепловая карта Москвы демонстрирует функцию поворота/наклона в Mapbox GL
Читать дальше →

Приглашаем на Sberbank Data Science Day 11 ноября

Время на прочтение2 мин
Количество просмотров13K
В эту субботу, 11 ноября, мы приглашаем читателей Хабра на однодневную конференцию по Data Science, Machine Learning и AI. Это мероприятие завершит Sberbank Data Science Journey, ежегодные соревнования по интеллектуальному анализу данных с применением передовых математических методов и алгоритмов. В этом году состязание проводилось на первом в своем роде русскоязычном наборе данных.

Мы наградим победителей и послушаем выступления от ведущих исследователей Nate Kushman (MIT, Microsoft Research UK), Дмитрий Ветров (ФКН ВШЭ, Bayes Group), Михаил Бурцев (МФТИ, iPavlov), Евгений Бурнаев (Сколтех, ADASE group) и Александр Тужилин (New York University, Сбербанк AI Lab). Кроме того, на специальной секции про бизнес в AI о пути своих компаний и перспективах монетизации AI расскажут основатели компаний Prisma, NTechLab, Rubbles и Vision Labs.

Подробная программа и ссылка на регистрацию — под катом.



R, Asterisk и платяной шкаф

Время на прочтение5 мин
Количество просмотров10K

Является продолжением предыдущих публикаций. Основное назначение публикаций — демонстрация возможностей R по решению различных "рутинных" задач по обработке данных, возникающих в бизнесе. Основной акцент ставится на создание законченного решения для конечного пользователя, а не на принципиальное решение частной задачи набором команд в консоли. Схематический прототип и продукт с конвейера имеют больше различий чем сходства.


По тонкой механике R есть огромное количество специализированных блогов, книг, а также github. Но обращаются к ним обычно только после того, как видят, что решение задачи средствами R возможно и весьма элегантно.


Читать дальше →

Проведение выборов с помощью блокчейна, идентификация пользователя по голосу и приложение для онлайн-собеседований

Время на прочтение9 мин
Количество просмотров4.6K
Обучающиеся магистерских программ «Управление разработкой ПО» и «Разработка безопасных систем и сетей» Университета Иннополис помогли решить 16 задач ИТ-компаний. 

image
Читать дальше →
Ведущий мировой специалист по тестам на проникновение. Обладатель доступа к исходному коду Windows. Microsoft Most Valuable Professional. Авторитетный спикер крупнейших тематических конференций. «Профессиональный хакер на стороне добра» Паула Янушкевич нашла время и для того, чтобы ответить на наши вопросы — о корпоративной защите и последних тенденциях в сфере кибербезопасности.
Подробности – под катом

Отличие DAX и MDX

Время на прочтение3 мин
Количество просмотров14K
Меня часто спрашивают об основных отличиях DAX и MDX или в целом о различии табличной и многомерной модели.

С точки зрения выражения или языка запросов, одно из наиболее важных различий лежит во внутренней основе обоих подходов.

В кубе, для адресации ячейки в пространстве, у нас есть понятие кортежа. Ось в кортеже устанавливает координаты. Если у нас есть единственный кортеж, то результат — содержание соответствующей ячейки в кубе. Поскольку у атрибутов куба есть элемент All, который служит значением по умолчанию (в большинстве случаев), если атрибут не был включен в кортеж, то мы выполняем агрегацию также, как если бы он там был. Например, следующий кортеж возвращает (агрегированный) объем продаж за 2013 год

(Date.Calendar.[Calendar Year].&[2013], Measures.[Internet Sales Amount])
Читать дальше →

Вклад авторов