Как стать автором
Обновить

Компания DCA (Data-Centric Alliance) временно не ведёт блог на Хабре

Сначала показывать

Архитектура хранения данных в Facetz.DCA

Время на прочтение 5 мин
Количество просмотров 5.9K
Блог компании DCA (Data-Centric Alliance) IT-инфраструктура *Хранение данных *Хранилища данных *Hadoop *
В цикле статей «BigData от А до Я» мы рассмотрели один из наиболее часто используемых технологических стеков для работы с большими данными Apache Hadoop и привели примеры его использования в продуктах DCA. Теперь мы расскажем, как выглядит архитектура хранения данных в Facetz.DCA.


Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 2

Встреча любителей больших данных и искусства

Время на прочтение 1 мин
Количество просмотров 3.7K
Блог компании DCA (Data-Centric Alliance) Big Data *Машинное обучение *
Во вторник, 29 ноября 2016 года DI Telegraph и Data-Centric Alliance проведут митап Art of Science.



Art of Science – мероприятие, посвященное анализу данных в искусстве. Наука и искусство – что их связывает? Возможно ли взаимодействие этих двух разных миров? Можно ли с помощью big data, нейронных сетей и методов машинного обучения создавать что-то полезное и прекрасное? Как наука о данных может помочь в решении задач современного искусства? Об этом и многом другом расскажут наши спикеры, представители мира технологического «искусства».
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 6

CIKM Cup 2016 – международное соревнование в области Data Science

Время на прочтение 6 мин
Количество просмотров 4.1K
Блог компании DCA (Data-Centric Alliance) Занимательные задачки Big Data *
Big Data наступают по всем фронтам — их роль растёт в науке, бизнесе, медицине, управлении безопасностью и в экономике. Поэтому каждая из сфер готова на на шутку бороться за лучшие умы специалистов. Среди самых удачных попыток найти самых-самых — важнейшее мировое соревнование в области анализа данных CIKM Cup 2016, который проходит в рамках 25-ой международной конференции CIKM Conf. 2016. Российская технологическая компания DCA, специализирующаяся на работе с большими данными и высоконагруженными системами, на этот раз стала партнером конференции и соревнования. DCA сформировала задачу, которую предстоит решить участникам CIKM Cup 2016, а также обеспечила необходимым набором данных для анализа. Хотите узнать немного больше о задаче и попробовать силы в соревнованиях Data Scientist — вам под кат. Кому как не нам знать, насколько сильны российские специалисты в сфере обработки данных.


Мы ищем своих Брюсов Уиллисов.
Читать дальше →
Всего голосов 20: ↑19 и ↓1 +18
Комментарии 5

Data Science Week 2016

Время на прочтение 2 мин
Количество просмотров 4.4K
Блог компании DCA (Data-Centric Alliance) Big Data *Машинное обучение *
Хабр, привет! Приглашаем вас на форум Data Science Week, который проходит при поддержке DCA.

Мероприятие пройдёт 8-9 и 12-13 сентября в Москве. Организаторы обещают более 20 выступлений от спикеров из Microsoft, Rambler&Co, Сбербанка, Авито, DCA, E-Contenta, Segmento.

Вот некоторые из тем:
Читать дальше →
Всего голосов 12: ↑12 и ↓0 +12
Комментарии 1

Встреча любителей больших данных

Время на прочтение 2 мин
Количество просмотров 7.9K
Блог компании DCA (Data-Centric Alliance) Big Data *Машинное обучение *
Привет Хабр! Если вам были интересны публикации из нашего блога, то наверняка вам будет интересно принять участие во встрече экспертов в области Data Science и машинного обучения, которая пройдёт 31 августа (среда) в DI Telegraph (Москва, Тверская 7). На встрече будет обсуждаться широкий круг вопросов, связанных с применением алгоритмов машинного обучения для решения задач анализа больших данных, тематического моделирования и генеративных алгоритмов.


Партнером и соорганизатором мероприятия выступаем мы — российская технологическая компания DCA (Data-Centric Alliance), специализирующаяся на работе с большими данными и высоконагруженными системами. Информация про формат и спикеров под катом.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Комментарии 8

Flume — управляем потоками данных. Часть 3

Время на прочтение 12 мин
Количество просмотров 12K
Блог компании DCA (Data-Centric Alliance) Анализ и проектирование систем *Big Data *Hadoop *
Привет, Хабр! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:

  • Как настроить мониторинг компонентов узла.
  • Как написать собственную реализацию компонента Flume.
  • Проектирование полноценной транспортной сети.

Читать дальше →
Всего голосов 21: ↑20 и ↓1 +19
Комментарии 5

Мобильный programmatic «на пальцах»: революция будет бархатной

Время на прочтение 8 мин
Количество просмотров 8.3K
Блог компании DCA (Data-Centric Alliance) Монетизация мобильных приложений *

Введение


image

Мировой рынок онлайн-рекламы находится на пороге «мобильной» революции — об этом говорят цифры исследования издания Wallblog. По его данным, доля расходов на mobile programmatic в Великобритании впервые превысила затраты на интернет-рекламу для персональных компьютеров.
5 млрд людей в мире имеют мобильные телефоны, и только 4,1 млрд людей имеют зубные щетки.
— как было озвучено на конференции MobileBeat-2016. Мы проанализировали исследования зарубежных коллег и собрали данные о развитии мобильного programmatic на Российском рынке.
Читать дальше →
Всего голосов 16: ↑13 и ↓3 +10
Комментарии 2

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

Время на прочтение 7 мин
Количество просмотров 24K
Блог компании DCA (Data-Centric Alliance) Big Data *
Туториал
Привет, Хабр! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.


Читать дальше →
Всего голосов 20: ↑18 и ↓2 +16
Комментарии 1

Итоги Black Box Challenge

Время на прочтение 3 мин
Количество просмотров 8K
Блог компании DCA (Data-Centric Alliance) Спортивное программирование *Big Data *Машинное обучение *
Привет, Хабр! Три месяца назад мы объявили о старте соревнования по машинному обучению BlackBox Challenge, а недавно оно закончилось. В этом посте организаторы соревнования расскажут о том, как всё прошло.


Вдохновившись результатами Google DeepMind по reinforcement learning, мы поняли, как здорово, когда система не использует человеческую экспертизу, а сама учится понимать окружающую среду. Мы решили сделать соревнование, в котором участникам нужно создать как раз такую систему.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 4

Как работает кросс-девайс реклама: сложности и перспективы развития технологии

Время на прочтение 11 мин
Количество просмотров 14K
Блог компании DCA (Data-Centric Alliance) Алгоритмы *Big Data *

Введение


Все большее число пользователей выходят в сеть с помощью различных устройств. При этом взаимодействие рекламодателя с потенциальным покупателем происходит с использованием множества рекламных каналов. Часто, устройство с которого человек потребляет контент и определяет этот канал взаимодействия. Пользователь может заинтересоваться телевизионной рекламой или наоборот — отвлечься во время её показа для общения в социальной сети на мобильном телефоне или персональном компьютере. Потенциальный покупатель на своем пути от первого контакта с брендом или товаром до момента покупки может сменить не одно устройство, и при этом не всегда оно будет персональным.


Читать дальше →
Всего голосов 14: ↑10 и ↓4 +6
Комментарии 6

Flume — управляем потоками данных. Часть 2

Время на прочтение 23 мин
Количество просмотров 13K
Блог компании DCA (Data-Centric Alliance) Разработка веб-сайтов *Анализ и проектирование систем *Big Data *Hadoop *
Привет, Хабр! Мы продолжаем цикл статей, посвященный Apache Flume. В предыдущей части мы поверхностно рассмотрели этот инструмент, разобрались с тем, как его настраивать и запускать. В этот раз статья будет посвящена ключевым компонентам Flume, с помощью которых не страшно манипулировать уже настоящими данными.

Читать дальше →
Всего голосов 32: ↑31 и ↓1 +30
Комментарии 12

Как выиграть в игру с неизвестными правилами?

Время на прочтение 4 мин
Количество просмотров 33K
Блог компании DCA (Data-Centric Alliance) Спортивное программирование *Big Data *Машинное обучение *
Привет, Хабр! Если кратко, приглашаем всех поучаствовать в необычном конкурсе по машинному обучению Black Box Challenge, который проходит при поддержке DCA.


Условия просты: нужно написать бота, который умеет играть в игру с неизвестными правилами. Победители получат ценные призы: от Xbox One до 300 тыс. рублей за первое место и возможность попасть в крутые компании на позицию специалиста по машинному обучению.

Ниже мы расскажем о соревновании в формате вопрос-ответ.
Читать дальше →
Всего голосов 39: ↑33 и ↓6 +27
Комментарии 20

Метрика рекомендательной системы imhonet.ru

Время на прочтение 12 мин
Количество просмотров 17K
Блог компании DCA (Data-Centric Alliance) Алгоритмы *Big Data *
Цель этого рассказа — поделиться способами решения проблемы, над которой работали авторы при разработке рекомендательного сервиса imhonet.ru. Поскольку проблема не является чисто научно-технической, а скорее находится на стыке технологий и бизнеса и может быть полезна более широкой аудитории, чем обычный технический отчёт, мы выбрали именно такой формат представления нашей работы — попытались написать рассказ настолько простым языком, насколько это возможно. Первая часть рассказа посвящена довольно подробному обоснованию того, как правильно измерять качество работы алгоритмов рекомендательной системы. А в конце иллюстративно перечислено несколько примеров, в которых мы проводили эти измерения для решения конкретных задач.


Читать дальше →
Всего голосов 32: ↑32 и ↓0 +32
Комментарии 8

Big Data от А до Я. Часть 4: Hbase

Время на прочтение 11 мин
Количество просмотров 92K
Блог компании DCA (Data-Centric Alliance) Big Data *
Туториал
Привет, Хабр! Наконец-то долгожданная четвёртая статья нашего цикла о больших данных. В этой статье мы поговорим про такой замечательный инструмент как Hbase, который в последнее время завоевал большую популярность: например Facebook использует его в качестве основы своей системы обмена сообщений, а мы в data-centric alliance используем hbase в качестве основного хранилища сырых данных для нашей платформы управления данными Facetz.DCA

В статье будет рассказано про концепцию Big Table и её свободную реализацию, особенности работы и отличие как от классических реляционных баз данных (таких как MySQL и Oracle), так и key-value хранилищ, таких как Redis, Aerospike и memcached.
Заинтересовало? Добро пожаловать под кат.


Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Комментарии 21

Flume — управляем потоками данных. Часть 1

Время на прочтение 11 мин
Количество просмотров 31K
Блог компании DCA (Data-Centric Alliance) Разработка веб-сайтов *Анализ и проектирование систем *Big Data *Hadoop *
Привет, Хабр! В этом цикле статей я планирую рассказать о том, как можно организовать сбор и передачу данных с помощью одного из инструментов Hadoop — Apache Flume.

Читать дальше →
Всего голосов 19: ↑18 и ↓1 +17
Комментарии 11

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

Время на прочтение 11 мин
Количество просмотров 159K
Блог компании DCA (Data-Centric Alliance) Python *Машинное обучение *
Hello, Habr! Недавно мы получили от “Известий” заказ на проведение исследования общественного мнения по поводу фильма «Звёздные войны: Пробуждение Силы», премьера которого состоялась 17 декабря. Для этого мы решили провести анализ тональности российского сегмента Twitter по нескольким релевантным хэштегам. Результата от нас ждали всего через 3 дня (и это в самом конце года!), поэтому нам нужен был очень быстрый способ. В интернете мы нашли несколько подобных онлайн-сервисов (среди которых sentiment140 и tweet_viz), но оказалось, что они не работают с русским языком и по каким-то причинам анализируют только маленький процент твитов. Нам помог бы сервис AlchemyAPI, но ограничение в 1000 запросов в сутки нас также не устраивало. Тогда мы решили сделать свой анализатор тональности с блэк-джеком и всем остальным, создав простенькую рекурентную нейронную сеть с памятью. Результаты нашего исследования были использованы в статье “Известий”, опубликованной 3 января.



В этой статье я немного расскажу о такого рода сетях и познакомлю с парой классных инструментов для домашних экспериментов, которые позволят строить нейронные сети любой сложности в несколько строк кода даже школьникам. Добро пожаловать под кат.
Читать дальше →
Всего голосов 82: ↑75 и ↓7 +68
Комментарии 48

Оптимизация гиперпараметров в Vowpal Wabbit с помощью нового модуля vw-hyperopt

Время на прочтение 8 мин
Количество просмотров 22K
Блог компании DCA (Data-Centric Alliance) Алгоритмы *Big Data *GitHub *Машинное обучение *
Привет, Хабр! В этой статье речь пойдет о таком не очень приятном аспекте машинного обучения, как оптимизация гиперпараметров. Две недели назад в очень известный и полезный проект Vowpal Wabbit был влит модуль vw-hyperopt.py, умеющий находить хорошие конфигурации гиперпараметров моделей Vowpal Wabbit в пространствах большой размерности. Модуль был разработан внутри DCA (Data-Centric Alliance).


Для поиска хороших конфигураций vw-hyperopt использует алгоритмы из питоновской библиотеки Hyperopt и может оптимизировать гиперпараметры адаптивно с помощью метода Tree-Structured Parzen Estimators (TPE). Это позволяет находить лучшие оптимумы, чем простой grid search, при равном количестве итераций.

Эта статья будет интересна всем, кто имеет дело с Vowpal Wabbit, и особенно тем, кто досадовал на отсутствие в исходном коде способов тюнинга многочисленных ручек моделей, и либо тюнил их вручную, либо кодил оптимизацию самостоятельно.
Читать дальше →
Всего голосов 24: ↑22 и ↓2 +20
Комментарии 6

Big Data от А до Я. Часть 2: Hadoop

Время на прочтение 9 мин
Количество просмотров 212K
Блог компании DCA (Data-Centric Alliance) Big Data *Hadoop *
Туториал
Привет, Хабр! В предыдущей статье мы рассмотрели парадигму параллельных вычислений MapReduce. В этой статье мы перейдём от теории к практике и рассмотрим Hadoop – мощный инструментарий для работы с большими данными от Apache foundation.

В статье описано, какие инструменты и средства включает в себя Hadoop, каким образом установить Hadoop у себя, приведены инструкции и примеры разработки MapReduce-программ под Hadoop.


Читать дальше →
Всего голосов 44: ↑38 и ↓6 +32
Комментарии 8

Анализ логов с помощью Hadoop/Python

Время на прочтение 6 мин
Количество просмотров 20K
Блог компании DCA (Data-Centric Alliance) Анализ и проектирование систем *Big Data *Hadoop *
Привет, Хабр! В этом посте я хотел бы рассказать вам о том, как мы, Лаборатория новых профессий, вместе с компанией Data-centric Alliance смогли сконструировать несколько лабораторных работ, посвящённых обработке и анализу веб-логов. Эти лабораторные работы являются ключевыми в рамках первого кейса нашей образовательной программы «Специалист по большим данным» и выполняются на основе аудиторных данных DMP Facetz.DCA. Меня зовут Артем Пичугин, и я являюсь её координатором.



Задача


Представьте, что вы компания, продающая автомобили. Кому показать рекламу автомобиля? На каких сайтах? Так, чтобы недорого и эффективно? Казалось бы, ответ очевиден: пользователям, которые заходят на страницы покупки автомобилей на сайтах компаний, а также на досках объявлений типа Avito и т д.
Читать дальше →
Всего голосов 40: ↑20 и ↓20 0
Комментарии 48

Кластеризация графов и поиск сообществ. Часть 2: k-medoids и модификации

Время на прочтение 11 мин
Количество просмотров 23K
Блог компании DCA (Data-Centric Alliance) Data Mining *Алгоритмы *Машинное обучение *
image Привет, Хабр! В этой части мы опишем вам алгоритм, с помощью которого были получены цвета на графах из первой части. В основе алгоритма лежит k-medoids — довольно простой и прозрачный метод. Он представляет собой вариант популярного k-means, про который наверняка большинство из вас уже имеет представление.

В отличие от k-means, в k-medoids в качестве центроидов может выступать не любая точка, а только какие-то из имеющихся наблюдений. Так как в графе между вершинами расстояние определить можно, k-medoids годится для кластеризации графа. Главная проблема этого метода — необходимость явного задания числа кластеров, то есть это не выделение сообществ (сommunity detection), а оптимальное разбиение на заданное количество частей (graph partitioning).

С этим можно бороться двумя путями:
Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Комментарии 4
1