Apache Hadoop — это набор утилит для построения суперкомпьютера, способного решать задачи, слишком большие для одного сервера. Множество серверов образуют Hadoop-кластер. Каждая машина в кластере носит название узла, или ноды. Если необходимо увеличить производительность системы, то в кластер просто добавляется больше серверов. Ethernet выполняет функции «системной шины» суперкомпьютера. В данной статье будут рассмотрены аспекты дизайна сетевой инфраструктуры, а также архитектура, которую Cisco предлагает использовать для таких систем.

105.03
Рейтинг
Big Data *
Большие данные и всё о них
Сначала показывать
Порог рейтинга
Уровень сложности
Highload ++ 2014 глазами докладчика, который очень любит Processing Large-Scale Graph Data разными нехорошими способами
5 мин
12KВсем привет!
Вы наверняка слышали о конференции разработчиков высоконагруженных систем Highload++ или сами участвовали или выступали или даже перестали ездить на нее, проклиная ее в соц.сетях.
К конференции Highload у меня весьма трепетное отношение, ибо моя первая поездка на нее в 2012 стабилизировала хаотичные на тот момент знания в некую упорядоченную цепь, структуру и предоставила наиболее широкий обзор текущего рынка Highload технологий в России и за ее пределами.
В 2013 году я с удовольствием смотрел онлайн-трансляцию вечером из офиса Тамтэка, обсуждая с коллегами преимущества Rabbit MQ, дубльгисовские попытки запихать все в Neo4j, а также доклад нашего коллеги Дениса Нелюбина о сравнении производительности NoSQL баз данных (Aerospike, Couchbase, Mongo, Cassandra) на нашем тестовом фреймворке, в разработке которого я сам принимал участие годом ранее.
В 2014, 14 марта, в свой день рождения, я отправил заявку с описанием доклада на Highload и стал ждать. После полугода мне пришло подтверждение и я отправился в путь, надеясь не только познакомиться с коллегами, работающими в смежных областях, но и поднять свое Big Data сознание на новой уровень.

Вы наверняка слышали о конференции разработчиков высоконагруженных систем Highload++ или сами участвовали или выступали или даже перестали ездить на нее, проклиная ее в соц.сетях.
К конференции Highload у меня весьма трепетное отношение, ибо моя первая поездка на нее в 2012 стабилизировала хаотичные на тот момент знания в некую упорядоченную цепь, структуру и предоставила наиболее широкий обзор текущего рынка Highload технологий в России и за ее пределами.
В 2013 году я с удовольствием смотрел онлайн-трансляцию вечером из офиса Тамтэка, обсуждая с коллегами преимущества Rabbit MQ, дубльгисовские попытки запихать все в Neo4j, а также доклад нашего коллеги Дениса Нелюбина о сравнении производительности NoSQL баз данных (Aerospike, Couchbase, Mongo, Cassandra) на нашем тестовом фреймворке, в разработке которого я сам принимал участие годом ранее.
В 2014, 14 марта, в свой день рождения, я отправил заявку с описанием доклада на Highload и стал ждать. После полугода мне пришло подтверждение и я отправился в путь, надеясь не только познакомиться с коллегами, работающими в смежных областях, но и поднять свое Big Data сознание на новой уровень.

+15
Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)
4 мин
13K
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+30
Немцы создали библиотеку пьяных аудиозаписей
1 мин
21KЭпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.
Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.

Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.
Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.

Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
+27
Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru
8 мин
20K
Любой интернет-проект можно сделать лучше. Реализовать новые фичи, добавить серверов, переделать интерфейс или выпустить новую версию API. Вашим пользователям это понравится. Или нет? И вообще, что это за люди? Молодые или в возрасте? Обеспеченные или скорее наоборот? Из Москвы? Питера? Сан-Франциско, штат Калифорния? И почему, в конце концов, те сто теплых пледов, что вы закупили еще в мае, пылятся на складе, а футболки с октокотами расходятся, как горячие пирожки? Получить ответы поможет проект Рейтинг Mail.Ru. Эта статья о том, как мы применяем data mining, чтобы ответить на самые сложные вопросы.
+19
Информационные технологии и большие деньги
6 мин
10KБанковские услуги существенны. Банки – нет.
Билл Гейтс
За несколько десятилетий информационные технологии изменили мир до неузнаваемости. Применительно к банковскому сектору и финансовым институтам чаще всего поднимаются вопросы государственного регулирования и защиты информации, а также вопросы противодействия отмыванию доходов, полученных преступным путем. Однако это не единственные вызовы, стоящие перед финансовым сектором. Клиентские потребности и привычки меняются с течением времени, и информационные технологии – один из важнейших драйверов.
Так, обеспеченные клиенты уже сейчас используют мобильные устройства не только для доступа к информации по счету и оплаты счетов, но и для заключения сделок.
Но дело не только в ежедневном использовании планшетов и смартфонов. Новое поколение клиентов требует новых каналов коммуникации и современных форм взаимодействия. При этом подобный запрос поступает, в том числе и от старшего поколения.
+9
В поисках идеального файлового хранилища
17 мин
25KРанее мы рассматривали прототип масштабируемой read-only файловой системы. Удалось показать, что, используя предложенную архитектуру, можно построить файловую систему любой емкости, с гарантированным временем доступа, соизмеримым с таковым для доступа к файлу в пределах одного физического диска.
Далее постараемся разобраться, может ли подобный подход принести пользу при построении файловой системы общего назначения.
+14
Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)
4 мин
14K
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+30
Адаптивное обучение, или несколько слов о Knewton
6 мин
32KЕсли вы интересуетесь современными технологиями в образовании, то вы, вероятно, уже знаете про Knewton. Если это не так, то информация ниже будет вам полезна!
Почему это важно?
Компания Knewton известна тем, что одной из первых стала активно применять технологии анализа данных в сфере образования. В результате этой работы была создана адаптивная образовательная платформа, которую можно подключить к любой современной системе управления учебным процессом (LMS).

Почему это важно?
Компания Knewton известна тем, что одной из первых стала активно применять технологии анализа данных в сфере образования. В результате этой работы была создана адаптивная образовательная платформа, которую можно подключить к любой современной системе управления учебным процессом (LMS).

+9
Система DeepSort от Samsung заняла первое место на соревновании Sort Benchmark 2014
2 мин
10KДобрый день, Хабр!
Cистема для сортировки данных DeepSort от компании Samsung Electronics заняла первое место на соревновании Sort Benchmark, известном как «Чемпионат мира» в области сортировки данных. Превзойдя конкурентные решения ведущих технологических компаний и исследовательских институтов, система от Samsung смогла проанализировать и реорганизовать 3,7 TБ данных за 60 секунд. Это более чем в два раза превышает предыдущий рекорд в 1,5 ТБ по результатам теста производительности MinuteSort Benchmark, который является отраслевым стандартом объема сортировки данных в минуту.

Cистема для сортировки данных DeepSort от компании Samsung Electronics заняла первое место на соревновании Sort Benchmark, известном как «Чемпионат мира» в области сортировки данных. Превзойдя конкурентные решения ведущих технологических компаний и исследовательских институтов, система от Samsung смогла проанализировать и реорганизовать 3,7 TБ данных за 60 секунд. Это более чем в два раза превышает предыдущий рекорд в 1,5 ТБ по результатам теста производительности MinuteSort Benchmark, который является отраслевым стандартом объема сортировки данных в минуту.

+9
Обзор наиболее интересных материалов по анализу данных и машинному обучению №23 (17 — 23 ноября 2014)
3 мин
12K
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+18
DataTalks 25.10.14: первая встреча
4 мин
8.3KТуториал
Добрый вечер! Сегодня вперые говорим об анализе данных в нашем блоге. Для многих это крайне актуальная тема. Однако в Беларуси не так много действительно полезных встреч и конференций, посвященных аналитике.
25 октября 2014 года в Минске состоялся первый DataTalks. DataTalks – это неформальные встречи специалистов в области анализа данных. Для участников это отличная возможность узнать об опыте применения аналитики в компаниях, работающих на мировом и местном рынках, а также познакомиться со специалистами в области анализа данных из различных индустрий.
Докладчики из Wargaming, Yandex, Dmlabs.org и Нанотех, на примерах решаемых ими задач, объясняли общие закономерности и применимость алгоритмов, которые важно знать и использовать при анализе данных в любой индустрии. Вопросы спикерам перерастали в профессиональные дискуссии, остановить которые не могло даже начало следующего доклада.

25 октября 2014 года в Минске состоялся первый DataTalks. DataTalks – это неформальные встречи специалистов в области анализа данных. Для участников это отличная возможность узнать об опыте применения аналитики в компаниях, работающих на мировом и местном рынках, а также познакомиться со специалистами в области анализа данных из различных индустрий.
Докладчики из Wargaming, Yandex, Dmlabs.org и Нанотех, на примерах решаемых ими задач, объясняли общие закономерности и применимость алгоритмов, которые важно знать и использовать при анализе данных в любой индустрии. Вопросы спикерам перерастали в профессиональные дискуссии, остановить которые не могло даже начало следующего доклада.

+13
Конференция HDConf: видео-отчет
2 мин
8.7K
4 октября в Минске конференция Highload Dev Conf собрала более 350 разработчиков. С докладами выступили специалисты в разработке высоконагруженных систем из компаний Одноклассники, Amazon, Altoros, Wargaming, Coub, Aviasales, Badoo и др.
В прошлой статье мы опубликовали фотоотчёт конференции и слайды докладов. Как и обещали загрузили видео докладов.
+3
Ближайшие события
Как мы делаем командные и ситуационные центры для крупных компаний
6 мин
42K
Индивидуальный командный центр капсульного типа: анатомическое кресло, панорамный монитор, панель управления, видео- и аудиосвязь, специальное ПО.

Центр принятия решений ОАО «Мосводоканал»
Комцентры или, как их правильно называют, ситуационные центры — это хорошо знакомая вам по фантастическим фильмам комната. Там обычно большая красивая видеостена, на которой можно наблюдать как коммунисты захватывают мир — или как поезда стремятся столкнуться друг с другом. На практике, конечно, использование СЦ намного прозаичнее, но случаются и кадры как в фильмах.
+33
IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами
3 мин
7.9K
IBM совместно с ведущими российскими вузами – Московским Государственным Университетом имени М.В. Ломоносова и Высшей Школой Экономики – объявляет о запуске магистерских программ, направленных на подготовку специалистов в области Больших Данных. Студенты, прошедшие обучение по этим программам, получат детальную информацию о методах и средствах организации Больших Данных, а также использовании Больших Данных для принятия взвешенных бизнес-решений.
По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными. Востребованность профессионалов, обладающих подобными знаниями и навыками, обусловлена динамичным ростом объемов информации в мире. Уже сейчас различные сенсоры, RFID-метки, мобильные устройства и социальные сети ежедневно генерируют 2,5 млрд. гигабайт данных. В результате, компании, работающие в различных индустриях по всему миру, испытывают нехватку специалистов, которые могли бы извлекать ценную информацию из огромного массива данных. Наличие таких специалистов способствует повышению конкурентоспособности компании, ее вхождению на новые рынки и преодолению существующих сложностей в работе.
+11
Киевский Speakers' Corner с Моти Грановски: «Intelligence to the masses: BI today & in the future», 26 ноября
1 мин
1.3KRecovery Mode
Если вы интересуетесь темой «Big Data» и ищите интересные возможности для своего развития в области бизнес-аналитики, то Ciklum Speakers' Corner «Intelligence to the masses: BI today & in the future» — именно то, что вам нужно.
-2
Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)
5 мин
11K
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+12
Современное состояние М2М (machine-to-machine) систем
3 мин
9.1KВ настоящее время имеют широкое распространение беспроводные технологии, с помощью которых работают уже большинство устройств. Новые системы разрабатываются таким образом, чтобы как можно меньше зависеть от действий человека.
В данном обзоре дано общее понятие М2М системы, из чего состоит и где применяется эта система, обозначить преимущества и недостатки данной системы, а так же выявить ее дальнейшее развитие.
М2М — расшифровывается как machine-to-machine — дословно означает «от машины к машине», т.е. передача данных осуществляется непосредственно между устройствами. К примеру, передача данных с датчиков на сервер обработки.
В данном обзоре дано общее понятие М2М системы, из чего состоит и где применяется эта система, обозначить преимущества и недостатки данной системы, а так же выявить ее дальнейшее развитие.
М2М — расшифровывается как machine-to-machine — дословно означает «от машины к машине», т.е. передача данных осуществляется непосредственно между устройствами. К примеру, передача данных с датчиков на сервер обработки.
+2
Обзор наиболее интересных материалов по анализу данных и машинному обучению №21 (3 — 9 ноября 2014)
5 мин
12K
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
+21
Проектирование новостной ленты в социальных сетях
9 мин
40K
Так сложилось, что за последние пару лет я успел поучаствовать в разработке нескольких социальных сетей. Главная задача, которую приходилось решать в каждом из этих проектов, заключалась в формировании новостной ленты пользователя. При чём важным условием была возможность масштабирования этой ленты в условиях роста числа пользователей (точнее, числа связей между ними) и, как следствие, — количества контента, который они деливерят друг другу.
Мой рассказ будет о том, как я, превозмогая трудности, решал задачу формирования новостной ленты. А также я расскажу о подходах, которые наработали ребята из проекта Socialite, и которыми они поделились на MongoDB World.
+30
Вклад авторов
moat 815.0Aleron75 528.0Syurmakov 524.4alexanderkuk 501.03Dvideo 490.0i_shutov 488.0m31 483.2shukshinivan 460.0s_valuev 446.0o6CuFl2Q 445.0