Как стать автором
Поиск
Написать публикацию
Обновить
75.71

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Игорь Илюнин: «Заказчик попросил собрать команду, которой не нашел в Кремниевой долине»

Время на прочтение6 мин
Количество просмотров15K


«Интернет вещей» — направление, на котором развитие идет с невероятной скоростью, где даже стратегические планы приходится пересматривать чуть ли не ежегодно. О том, чем живет передний край ИТ, как изменились подходы к найму и обучению инженеров, какие перспективы это открывает для молодых специалистов, рассказал Игорь Илюнин, лидер IoT-практики DataArt.

И. И.: Около полутора лет назад мы поняли, что в области IoT ветер начинает дуть немного в другую сторону. Раньше клиентов интересовали подключение устройств, знание конкретных протоколов обмена данными между ними, различные типы подключения к сети, построение инфраструктуры на уровне устройств. Но в этот момент к нам пришли сразу несколько заказчиков – достаточно крупных компаний, причем одним из них был производитель компьютерной техники. Эта компания собиралась строить собственный IoT-cloud, который бы обслуживал всех их клиентов, хотела обеспечить перемещение данных, самостоятельно их обрабатывать, позволив самим клиентам делать кастомизацию. То есть создать платформу на все случаи жизни. При этом они озвучили список современных технологий, которыми должны владеть инженеры их поставщика, и на тот момент во всей компании мы нашли всего пару человек, которые хотя бы частично удовлетворяли этим требованиям. Надо сказать, что и сам заказчик говорил: «нам нужна команда в 3-4 человека, которые будут работать над нашим проектом — в Кремниевой долине мы таких не нашли». Мы увидели в этом отличную возможность — тогда появился концепт внутренней Big Data академии.
Читать дальше →

Экосистема R как инструмент для автоматизации бизнес-задач

Время на прочтение7 мин
Количество просмотров12K
Настоящая статья является продолжением предыдущей публикации «Инструменты DataScience как альтернатива классической интеграции ИТ систем». Основная цель — заострить внимание как разработчиков, так и руководителей среднего звена, на широком спектре возможностей, которые предоставляют современные инструменты из сферы Data Science за рамками классических задач статистических вычислений и модной нынче темы машинного обучения. В частности, возможности экосистемы R по состоянию на август 2016 года и применение этих возможностей на примере двух задач: одной из прикладной науки, другой – из среднего бизнеса.
Читать дальше →

Batch Normalization для ускорения обучения нейронных сетей

Время на прочтение5 мин
Количество просмотров77K

В современном мире нейронные сети находят себе всё больше применений в различных областях науки и бизнеса. Причем чем сложнее задача, тем более сложной получается нейросеть.


Обучение сложных нейронных сетей иногда может занимать дни и недели только для одной конфигурации. А чтобы подобрать оптимальную конфигурацию для конкретной задачи, требуется запустить обучение несколько раз — это может занять месяцы вычислений даже на действительно мощной машине.


В какой-то момент, знакомясь с представленным в 2015 году методом Batch Normalization от компании Google мне, для решения задачи связанной с распознаванием лиц, удалось существенно улучшить скорость работы нейросети.



За подробностями прошу под кат.

Читать дальше →

Инструменты Data Science как альтернатива классической интеграции ИТ систем

Время на прочтение6 мин
Количество просмотров14K
В настоящий момент уже можно считать, что страсти по Big Data и Data Science немного утихли, а ожидание чуда, как обычно, было сильно скорректировано реальностью физического мира. Самое время заняться конструктивной деятельностью. Поиск тем на Хабре по различным ключевым словам выдал крайне скудный набор статей, поэтому я решил поделиться тем опытом, который был накоплен в части практического применения инструментов и подходов Data Science для решения повседневных задач в компании.
Читать дальше →

Data Science Week 2016

Время на прочтение2 мин
Количество просмотров4.5K
Хабр, привет! Приглашаем вас на форум Data Science Week, который проходит при поддержке DCA.

Мероприятие пройдёт 8-9 и 12-13 сентября в Москве. Организаторы обещают более 20 выступлений от спикеров из Microsoft, Rambler&Co, Сбербанка, Авито, DCA, E-Contenta, Segmento.

Вот некоторые из тем:
Читать дальше →

Обсуждение инструментов аналитики для работы с большими данными в Питере 14 сентября

Время на прочтение1 мин
Количество просмотров3.6K


14 сентября в 19:00 мы встретимся в офисе компании Wrike, чтобы обсудить инструменты аналитики и работу с большими данными. Главное внимание мы уделим успешным практикам и инструментам, разберем конкретные кейсы, поговорим о построении системы аналитики в компании, попробуем дать конкретные советы и рекомендации. Эксперты с удовольствием ответят на ваши вопросы.
О программе и докладах

Книга об интенсивной обработке данных

Время на прочтение4 мин
Количество просмотров45K
Здравствуйте, дорогие читатели. Мы редко пишем о книжных «долгостроях», то есть, о работах, которые никак не выйдут на Западе. Но сегодня хотим познакомить вас с постом из блога Мартина Клеппмана, который уже не первый год трудится над фундаментальной книгой "Designing Data-Intensive Applications"


В сравнительно небольшой публикации автору удалось изложить базовые идеи столь объемной книги, обрисовать целевую аудиторию и почти убедить нас, что за перевод надо браться. Но вы все равно почитайте и не стесняйтесь голосовать.
Читать дальше →

Data Science Week 2016. Форум о технологиях работы с данными

Время на прочтение2 мин
Количество просмотров4.5K
Всем привет! Рады пригласить вас на второй форум Data Science Week, который пройдет 8, 9, 12 и 13 сентября в Москве. Вас ждет более 20 открытых мастер-классов и лекций от специалистов из таких компаний как Microsoft, Rambler&Co, Сбербанк, Авито, DCA, E-Contenta, Segmento.

Каждый день будет посвящен отдельной теме: взаимоотношения с клиентом, внутренняя оптимизация, Sberbank Data Day, искусственный интеллект.

image
Читать дальше →

Что такое большие данные, часть 2

Время на прочтение14 мин
Количество просмотров30K


В первой части этой серии статей вы узнали о данных и о том, как можно использовать компьютеры чтобы добывать смысловое значение из крупных блоков таких данных. Вы даже видели что-то похожее на большие данные у Amazon.com середины девяностых, когда компания запустила технологию для наблюдения и записи в реальном времени всего, что многотысячная аудитория клиентов одновременно делала на их сайте. Довольно впечатляюще, но назвать это большими данными можно с натяжкой, пухлые данные — больше подойдёт. Организации вроде Агентства национальной безопасности США (NSA) и Центра правительственной связи Великобритании (GCHQ) уже собирали большие данные в то время в рамках шпионских операций, записывая цифровые сообщения, хотя у них и не было простого способа расшифровать их и найти в них смысл. Библиотеки правительственных записей были переполнены наборами бессвязных данных.


То, что сделал Amazon.com, было проще. Уровень удовлетворённости их клиентов мог быть легко определен, даже если он охватывал все десятки тысяч продуктов и миллионы потребителей. Действий, которые клиент может совершить в магазине, реальный он или виртуальный, не так уж много. Клиент может посмотреть что в доступе, запросить дополнительную информацию, сравнить продукты, положить что-то в корзину, купить или уйти. Всё это было в пределах возможностей реляционных баз данных, где отношения между всеми видами действий возможно задать заранее. И они должны быть заданы заранее, с чем у реляционных баз данных проблема — они не так легко расширяемы.


Заранее знать структуру такой базы данных — как составить список всех потенциальных друзей вашего неродившегося ребенка… на всю жизнь. В нём должны быть перечислены все неродившиеся друзья, потому что как только список будет составлен, любое добавление новой позиции потребует серьезного хирургического вмешательства.

Читать дальше →

Big Data хакатон от Университета Иннополис и компании Provectus

Время на прочтение2 мин
Количество просмотров3.5K
image

Приглашаем принять участие в 48-часовом командном соревновании, направленном на построение «умной системы» анализа логов и метрик кластера, обрабатывающего данные. Хакатон Hydrosphere.io пройдёт 9-11 сентября в Иннополисе, участие бесплатное. Все подробности под катом.
Читать дальше →

R и Spark

Время на прочтение8 мин
Количество просмотров10K
imageSpark – проект Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения. Spark также имеет API и для R(пакет SparkR), который входит в сам дистрибутив Spark. Но, помимо работы с данным API, имеется еще два альтернативных способа работы со Spark в R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере Spark развернутого в Azure HDInsight.
Читать дальше →

«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data

Время на прочтение5 мин
Количество просмотров18K
Всем привет! 5 октября в New Professions Lab стартует пятый набор программы «Специалист по большим данным», которую на данный момент закончило более 200 человек. Мы уже рассказывали на Хабре (здесь и здесь), чему конкретно мы учим, с какими знаниями и навыками выходят наши выпускники, и совсем скоро напишем, что нового будет в пятой программе. А сегодня хотим поделиться рассказами и отзывами тех, кто уже прошел обучение и на себе испытал все тяготы и невзгоды.

image
Читать дальше →

Встреча любителей больших данных

Время на прочтение2 мин
Количество просмотров8K
Привет Хабр! Если вам были интересны публикации из нашего блога, то наверняка вам будет интересно принять участие во встрече экспертов в области Data Science и машинного обучения, которая пройдёт 31 августа (среда) в DI Telegraph (Москва, Тверская 7). На встрече будет обсуждаться широкий круг вопросов, связанных с применением алгоритмов машинного обучения для решения задач анализа больших данных, тематического моделирования и генеративных алгоритмов.


Партнером и соорганизатором мероприятия выступаем мы — российская технологическая компания DCA (Data-Centric Alliance), специализирующаяся на работе с большими данными и высоконагруженными системами. Информация про формат и спикеров под катом.
Читать дальше →

Ближайшие события

Дино Эспозито на uDev Tech Events: «Life as a Service: Scalability and other Aspects»

Время на прочтение1 мин
Количество просмотров2.4K
13 сентября 2016 года Дино Эспозито выступит на uDev Tech Events с лекцией на тему «Life as a Service: Scalability and other Aspects». Для тех, кто не сможет посетить мероприятие, будет вестись прямая трансляция.


Читать дальше →

Работа с фреймворком итеративной обработки графов Giraph на примере RBM

Время на прочтение16 мин
Количество просмотров4.9K

The Indifferent by xetobyte

Всем привет. В предыдущей статье мы рассказали, как создавать свои приложения под фреймворк Giraph (надстройка над системой обработки данных Hadoop), и обещали подробно рассмотреть, как работать с Giraph, на примере алгоритма обучения Restricted Boltzmann Machine. Итак, в какой-то момент группа сегментации аудитории департамента рекламных технологий Mail.Ru Group столкнулась с необходимостью подобрать инструмент для быстрого анализа графов, и по целому ряду причин (читайте ниже) наше внимание привлекла система Apache Giraph.
Читать дальше →

Flume — управляем потоками данных. Часть 3

Время на прочтение12 мин
Количество просмотров13K
Привет, Хабр! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:

  • Как настроить мониторинг компонентов узла.
  • Как написать собственную реализацию компонента Flume.
  • Проектирование полноценной транспортной сети.

Читать дальше →

Кого агрегирует Meduza?

Время на прочтение5 мин
Количество просмотров35K
Гегель считал, что общество становится современным, когда новости заменяют религию.
The News: A User's Manual, Alain de Botton

Читать все новости стало разительно невозможно. И дело не только в том, что пишет их Стивен Бушеми в перерывах между боулингом с Лебовски, а скорее в том, что их стало слишком много. Тут нам на помощь приходят агрегаторы новостей и естественным образом встаёт вопрос: а кого и как они агрегируют?


Заметив пару интересных статей на Хабре про API и сбор данных популярного новостного сайта Meduza, решил расчехлить щит Персея и продолжить славное дело. Meduza мониторит множество различных новостных сайтов, и сегодня разберемся какие источники в ней преобладают, можно ли их осмысленно сгруппировать и есть ли здесь ядро, составляющее костяк новостной ленты.


Краткое определение того, что такое Meduza:


«Помните, как неумные люди все время называли «Ленту»? Говорили, что «Лента» — агрегатор. А давайте мы и в самом деле сделаем агрегатор» (интервью Forbes)


(это не просто КДПВ, а топ-35 медиа по числу новостей указанных в качестве источника на сайте Meduza, включая её саму)


Конкретизируем и формализуем вопросы:


  • Q1: Из каких ключевых источников состоит лента новостей?

Иначе говоря, можем ли мы выбрать небольшое число источников достаточно покрывающих всю ленту новостей?


  • Q2: Есть ли на них какая-то простая и интерпретируемая структура?

Проще говоря, можем ли мы кластеризовать источники в осмысленные группы?


  • Q3: Можно ли по этой структуре определить общие параметры агрегатора?
Читать дальше →

Пересечение морд доменов топ 1,000,000 по N-граммам

Время на прочтение2 мин
Количество просмотров8.8K
Задачей исследования является визуализация дуплицированности главных страниц доменов по пятисловным шинглам в рамках общей базы.


Читать дальше

Машинное обучение с помощью TMVA. Reader модели

Время на прочтение3 мин
Количество просмотров4.3K

Продолжу обещанный рассказ о том, как можно применять полученную модель на практике, заодно попытаюсь более подробно раскрыть тему эксклюзивности TMVA.
Допустим, Вы работаете в проекте, требующем максимального быстродействия системы (геймдев, картографический сервис или же данные с коллайдера), тогда очевидно, что Ваш код написан на языке, который предельно близок к железу — C/C++. И однажды возникает необходимость добавить к сервису какую-то математику в зависимости от потребностей проекта. Обычно взгляд падает на змеиный язык, который имеет множество удобных математических библиотек для прототипирования идей, но при этом бесполезном в работе с действительно большим объёмом данных и поедающем словно удав все ресурсы машины.

Читать дальше →

Deep Learning — что же делать, кого бить

Время на прочтение3 мин
Количество просмотров22K
Нигде, наверно, нет такой насущной необходимости в синергии знаний разных областей науки — как в области машинного обучения и Deep Learning. Достаточно открыть капот TensorFlow и ужаснуться — огромное количество кода на python, работающее с тензорами внутри… C++, вперемешку с numpy, для выкладки в продакшн требующее чуток покодить «на плюсах», вприкуску с bazel (это так волнует, всю жизнь мечтал об этом!). И другая крайность — ребята из Deeplearning4j прокляли python к чертовой матери и вращают тензоры на старой и доброй java. Но дальше всех ушли, похоже, студенты из университета Нью-Йорка — люди, причем не только студенты, причем давно и серьезно жгут на Luajit + nginx (аминь по католически). Ситуация осложняется недавним демаршем Google DeepMind в отношении «дедушки torch»: все проекты переводят на свой внутренний движок, родившийся из DistBelief.
Полнейший хаос и бардак.
Читать дальше →

Вклад авторов