Как стать автором
Поиск
Написать публикацию
Обновить
77.31

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Распределённый xargs, или Исполнение гетерогенных приложений на Hadoop-кластере

Время на прочтение9 мин
Количество просмотров7.9K

enter image description here


Привет, Хабр! Меня зовут Александр Крашенинников, я руковожу DataTeam в Badoo. Сегодня я поделюсь с вами простой и элегантной утилитой для распределённого выполнения команд в стиле xargs, а заодно расскажу историю её возникновения.


Наш отдел BI работает с объёмами данных, для обработки которых требуются ресурсы более чем одной машины. В наших процессах ETL (Extract Transform Load) в ход идут привычные миру Big Data распределённые системы Hadoop и Spark в связке с OLAP-базой Exasol. Использование этих инструментов позволяет нам горизонтально масштабироваться как по дисковому пространству, так и по CPU/ RAM.


Безусловно, в наших процессах ETL существуют не только тяжеловесные задачи на кластере, но и машинерия попроще. Широкий пласт задач решается одиночными PHP/ Python-скриптами без привлечения гигабайтов оперативной памяти и дюжины жёстких дисков. Но в один прекрасный день нам потребовалось адаптировать одну CPU-bound задачу для выполнения в 250 параллельных инстансов. Настала пора маленькому Python-скрипту покинуть пределы родного хоста и устремиться в большой кластер!

Читать дальше →

Вебинар: Введение в Singularity

Время на прочтение1 мин
Количество просмотров2.7K


Команда FlyElephant приглашает всех на вебинар "Введение в Singularity", который проведет
Gregory Kurtzer (HPC Systems Architect и Technical Lead в Lawrence Berkeley National Laboratory).
Вебинар будет проходить завтра, 15 февраля, в 19:00 (EET) / 9:00 am (PST). Язык — английский.
Читать дальше →

Мультифакторный анализатор деятельности произвольного предприятия на IEM-платформе

Время на прочтение3 мин
Количество просмотров4.1K

WANTED: талантливые математики на интересный и денежный контракт
Целевая специализация — матстатистика, матмоделирование, нейросети.
Описание задачи — ниже.


Вторая попытка по человечески сформулировать задачу из предыдущего постинга.

Читать дальше →

Черновик книги Эндрю Ына «Жажда машинного обучения», главы 1-7

Время на прочтение10 мин
Количество просмотров33K
В декабре прошлого года в переписке американских коллег по data science прокатилась волна обсуждения долгожданного черновика новой книги гуру машинного обучения Эндрю Ына (Andrew Ng) «Жажда машинного обучения: стратегии для инженеров в эпоху глубинного обучения». Долгожданного, потому что книга была анонсирована ещё летом 2016 года, и вот, наконец, появилось несколько глав.

image

Представляю вниманию Хабра-сообщества перевод первых семи глав из доступных в настоящий момент четырнадцати. Замечу, что это не финальный вариант книги, а черновик. В нем есть ряд неточностей. Эндрю Ын предлагает писать свои комментарии и замечания сюда. Начинает автор с вещей, которые кажутся очевидными. Дальше ожидаются более сложные концепции.
Читать дальше →

Техносфере Mail.Ru — три года

Время на прочтение9 мин
Количество просмотров7.6K

Сегодня исполнилось три года с момента запуска одного из наших образовательных проектов — Техносферы Mail.Ru, реализованного совместно с факультетом ВМК МГУ им. Ломоносова. Программа Техносферы рассчитана на подготовку специалистов в сфере больших данных. Изначально она была рассчитана на один год и состояла из шести дисциплин. Однако спустя год мы пересмотрели программу и сделали её двухгодичной. В течение четырёх семестров студенты изучают 12 дисциплин, выполняя большой объём практических работ. Заодно был разработан подготовительный курс «Алгоритмы и структуры данных».

В Техносферу принимают студентов 2—4-х курсов. Несмотря на то что схема вступительных экзаменов во все наши образовательные проекты одинакова (студенты сдают онлайн-тест и проходят очное собеседование), в Техносфере мы больше ориентируемся на базовые знания по высшей математике. Помимо чтения лекций мы создали лабораторию, где студенты работают с реальными задачами, с которыми мы сталкиваемся в Mail.Ru Group. Например, пытаются улучшить аналитические алгоритмы, создать определённые эвристики. То есть делают всё то же самое, что они делали бы во время обычной стажировки в компании. С осени 2015 года в лаборатории начали проводить и научные исследования. Например, изучаются возможности применения нейронных сетей для решения тех или иных бизнес-задач.

И в честь дня рождения мы выкладываем список учебных материалов, которые рекомендованы к изучению нашим студентам на протяжении всего двухлетнего курса.
Читать дальше →

Kaggle и Linux. Digit Recognizer for analysts (для начинающих аналитиков)

Время на прочтение3 мин
Количество просмотров7.4K
Для тех, кто только познает сферу анализа многомерных данных, хочу поделиться опытом, как почувствовать себя мини информационным аналитиком.

Кто еще не знаком с сайтом Kaggle.com (англоязычный), рекомендую не полениться и провести там пару часов для общего ознакомления с данным ресурсом.


На данном сайте уже как 4 года идет конкурс на самый лучший анализатор изображений. Принять участие может каждый. Изначально конкурс был до 31.12.16, но сейчас он продлен до 2019 года.

На Хабре уже был описан способ, как написать программу и поучаствовать, но там далеко не для новичков: «Как начать работу в Kaggle: руководство для новичков в Data Science».

Я решил попробовать свои силы, и при этом не писать программу.
Читать дальше →

История разработки TWIME — нового высокоскоростного интерфейса Московской Биржи

Время на прочтение9 мин
Количество просмотров14K
В этом хабе мы расскажем вам о своем уникальном опыте разработки высокоскоростного интерфейса TWIME для Московской биржи, объясним, почему нам так важна низкая latency (время отклика) и как ее сократить. Надеемся, в заключении вам станет немного понятнее, почему Московская биржа более технологична в некоторых областях, чем, к примеру, такие гиганты High Load как Nginx, VK или MailRu.
Читать дальше →

Как платформа SAP HANA работает с большими данными

Время на прочтение5 мин
Количество просмотров27K
Привет, Хабр! В прошлой статье мы рассказали про решение для малого бизнеса SAP Business One и кратко упомянули про возможности SAP HANA в области вычислений и аналитики. Сегодня мы подробнее остановимся на том, как платформа SAP HANA может работать с большими данными и на сценариях применения этих технологий в бизнесе.

SAP HANA: как это работает

Читать дальше →

Скоро открытие ML Boot Camp III

Время на прочтение9 мин
Количество просмотров15K


15 февраля стартует Machine Learning Boot Camp III — третье состязание по машинному обучению и анализу данных от Mail.Ru Group. Сегодня рассказываем о прошедшем контесте и открываем тайны нового! Итак, в ходе предстоящего конкурса нужно будет угадать, останется ли участник в онлайн-игре или уйдет из нее. Выборки для задачи построены на двенадцати игровых признаках для 25000 пользователей. Естественно, все данные анонимизированы.
Читать дальше →

Приглашаем на Data Fest⁴ 11 и 12 февраля

Время на прочтение4 мин
Количество просмотров5.7K


Почти через две недели в нашем московском офисе состоится Data Fest⁴ — уже четвертая конференция, которая объединяет исследователей, инженеров и разработчиков, связанных с Data Science во всех его проявлениях. Вас ждет богатая программа, множество теоретических и практических секций. Подробности читайте под катом.
Читать дальше →

Azure понятным языком [Шпаргалка]

Время на прочтение10 мин
Количество просмотров76K
Скажите, приходилось ли вам слышать о новых службах Azure: Elasticville, StorageWart и API Gatesian? Разумеется, нет, ведь эти названия были придуманы только что. В этой статье мы делимся с вами шпаргалкой, в которой понятным языком описана экосистема Microsoft Azure.


Читать дальше →

Разница между статистикой и наукой о данных

Время на прочтение8 мин
Количество просмотров14K
Здравствуйте, уважаемые читатели. Мы вновь попробуем посоветоваться с вами по поводу актуальности орейлевской новинки. На сей раз речь пойдет о статистике для Data Science.

Объем оригинала — 250 стр., дата выхода — 25 февраля.


В книге рассмотрены лаконичные кейсы с небольшим количеством графиков и примеров на языке R.

Чтобы размышлять и голосовать было интереснее — под катом найдете статью, автор которой попытался уловить и описать разницу между статистикой и Data Science
Читать дальше →

Crowd разработка скоринговой системы для IEM системы

Время на прочтение2 мин
Количество просмотров3.1K
Привет, Хабр. У нас есть огромный опыт в разработке систем для автоматизации предприятий, но к сожалению, я почти ничего не помню из математической статистики. Вообще у меня была кафедра дискретной математики. Но есть идея сделать проект, который в кулуарах носит название Железный Феликс.
Читать дальше →

Ближайшие события

Зачем нужно еще больше дата-центров: сегодня и завтра аналитики больших данных

Время на прочтение7 мин
Количество просмотров5.3K
Зачем хранить столько данных в строящихся все больше и больше дата центрах? Одна из сфер применения биг дата — прогнозная аналитика. Она отвечает на вопросы: что значат эти цифры о нас, где сейчас используется аналитика и что будет через три года?

Прогнозирование — основа оптимизации


Количество данных растет со скоростью, которую человеку невозможно вообразить. Данные ничто без анализа. Только невообразимое количество закодированной в единицы и нули информации. Зачем строят новые дата-центры? Что и почему хранится, а также обрабатывает в их глубинах?

Мы все наслышаны о контекстной рекламе, показ которой основывается на наших предпочтениях, о которых поисковые машины узнают из наших действий онлайн. Но вот про остальные сферы мало кто говорит широкой публике. А ведь кроме того, что биг дата в сумме с прогнозной аналитикой позволяет рекламодателям и банкам зарабатывать невероятные деньги, они помогают спасать человеческие жизни.


Читать дальше →

Обзор Knime Analytics Platform — open source системы для анализа данных

Время на прочтение4 мин
Количество просмотров46K

О KNIME


Вашему вниманию представляется обзор Knime Analytics Platform – open source фреймворка для анализа данных. Данный фреймворк позволяет реализовывать полный цикл анализа данных включающий чтение данных из различных источников, преобразование и фильтрацию, собственно анализ, визуализацию и экспорт.

Скачать KNIME (eclipse-based десктоп приложение) можно отсюда: www.knime.org

Кому может быть интересна эта платформа:

  • Тем, кто хочет анализировать данные
  • Тем, кто хочет анализировать данные и не владеет навыками программирования
  • Тем, кто хочет покопаться в неплохой библиотеке реализованных алгоритмов и, возможно, узнать что-то новое
Читать дальше →

3 главных тренда в мире ИИ в 2017 году

Время на прочтение4 мин
Количество просмотров4.5K


Кажется, что весь мир (как люди, так и вещи) подключен к интернету, и, по прогнозам, к 2020 году будет существовать 6 миллиардов смартфонов и 50 миллиардов девайсов, подключенных к интернету.

Мы уже видели впечатляющие эксперименты по использованию личной информации пользователей для создания индивидуального подхода, более оптимального использования их времени и привлечения более сфокусированного внимания. Несмотря на то, что удовлетворение потребностей остается основной валютой цифровой экономики, просто обеспечивать индивидуальный подход к интересам пользователей уже недостаточно опыт человека должен быть интереснее, быстрее и более контекстуально приемлемым.

Благодаря серьезному продвижению в разработках в сфере искусственного интеллекта (ИИ) и обучении машин за последние несколько лет, мы уже видим возможности применения ИИ для улучшения обслуживания пользователей и в других сферах взаимодействия с клиентами. К примеру, чатботы на основе ИИ могут отвечать на вопросы пользователей на различные темы. ИИ будет иметь критическое значение в создании индивидуального подхода к пользователям, подхода следующего поколения, и, являясь проводником пользователей, продавцы должны воспользоваться им для достижения успеха.
Ниже приведены основные прогнозы по ИИ на ближайший год.
Читать дальше →

Самые популярные слова в двух терабайтах кода

Время на прочтение6 мин
Количество просмотров26K
Привет, друзья! Я тут проанализировал 2ТБ кода и получил самые популярные слова в разных языках программирования. Результаты можно посмотреть в виде облаков тегов и простым списком:

image
Сайт находится здесь, а его исходники можно почитать на гитхабе.

Под катом описано в деталях о том как собирались данные, как строился сайт и как укладывались облака. И немножко наблюдений.

Приятного чтения!
Читать дальше →

Обзор рынка труда в области big data и data science

Время на прочтение5 мин
Количество просмотров23K
Хабр, привет! По релевантным поисковым запросам нашлось около 1000 вакансий, затем они были вручную отфильтрованы по заголовкам и описаниям, и для подготовки обзора мы использовали 288 активных вакансий в области big data и data science с HeadHunter.

В действительности активных вакансий больше, так как во внимание не принимались другие ресурсы (например, SuperJob, Blastim, социальные сети, сайты компаний). Кроме того, нужно понимать, что это всего лишь снимок текущей ситуации, каждый день вакансии заполняются и появляются новые.
Читать дальше →

Производительность сети малой латентности InfiniBand на виртуальном кластере HPC HUB

Время на прочтение15 мин
Количество просмотров5.9K
areas

Моделирование сложных физических процессов в наши дни рассматривается как важная технологическая возможность многими современными компаниями. Широко используемым сейчас подходом для создания вычислителей, способных рассчитывать сложные модели, является создание кластерных систем, где вычислительный узел представляет собой сервер общего назначения, подключенный к сети малой латентности и управляемый своей собственной ОС (как правило, из семейства GNU/Linux).

Введение виртуализационного слоя в системное ПО вычислительных кластеров, позволяет в течение нескольких минут создавать “виртуальный кластер”. Такие виртуальные кластера в рамках одной OpenStack инфраструктуры являются абсолютно независимыми. Пользовательские программы внутри них могут изменяться так, как нужно пользователю без каких-либо согласований с кем-либо, а логические устройства, на которых находятся пользовательские данные, недоступны другим виртуальным кластерам.

Поддержка сети малой латентности виртуализационными решениями представляет собой отдельную сложную проблему. Для прикладных программ в большинстве случаев современная виртуализация на основе KVM приводит к минимальным потерям вычислительной мощности (<1%). Однако специализированные тесты сетей малой латентности показывают накладные расходы от виртуализации не более 20% на операциях синхронизации.
Читать дальше →

Сравнение производительности аналитических СУБД HPE Vertica и Exasol с использованием TPC-H Benchmark

Время на прочтение7 мин
Количество просмотров9.7K
В данной статье я хочу продолжить тему сравнения баз данных, которые можно использовать для построения хранилища данных (DWH) и аналитики. Ранее я описал результаты тестов для Oracle In-Memory Option и In-Memory RDBMS Exasol. В данной же статье основное внимание будет уделено СУБД Vertica. Для всех описанных тестов использовались tpc-h benchmark на небольшом объёме исходных данных (2 Гб) и конфигурация БД на одном узле. Эти ограничения позволили мне многократно повторить бенчмарк в разных вариациях и с различными настройками. Для выбора аналитической СУБД под конкретный проект призываю читателей проводить испытания на своих кейсах (данные, запросы, оборудование и другие особенности).
Читать дальше →

Вклад авторов