Как стать автором
Поиск
Написать публикацию
Обновить
105.03

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Hadoop для сетевых инженеров

Время на прочтение7 мин
Количество просмотров22K
Apache Hadoop — это набор утилит для построения суперкомпьютера, способного решать задачи, слишком большие для одного сервера. Множество серверов образуют Hadoop-кластер. Каждая машина в кластере носит название узла, или ноды. Если необходимо увеличить производительность системы, то в кластер просто добавляется больше серверов. Ethernet выполняет функции «системной шины» суперкомпьютера. В данной статье будут рассмотрены аспекты дизайна сетевой инфраструктуры, а также архитектура, которую Cisco предлагает использовать для таких систем.
Читать дальше →

Highload ++ 2014 глазами докладчика, который очень любит Processing Large-Scale Graph Data разными нехорошими способами

Время на прочтение5 мин
Количество просмотров12K
Всем привет!

Вы наверняка слышали о конференции разработчиков высоконагруженных систем Highload++ или сами участвовали или выступали или даже перестали ездить на нее, проклиная ее в соц.сетях.

К конференции Highload у меня весьма трепетное отношение, ибо моя первая поездка на нее в 2012 стабилизировала хаотичные на тот момент знания в некую упорядоченную цепь, структуру и предоставила наиболее широкий обзор текущего рынка Highload технологий в России и за ее пределами.

В 2013 году я с удовольствием смотрел онлайн-трансляцию вечером из офиса Тамтэка, обсуждая с коллегами преимущества Rabbit MQ, дубльгисовские попытки запихать все в Neo4j, а также доклад нашего коллеги Дениса Нелюбина о сравнении производительности NoSQL баз данных (Aerospike, Couchbase, Mongo, Cassandra) на нашем тестовом фреймворке, в разработке которого я сам принимал участие годом ранее.

В 2014, 14 марта, в свой день рождения, я отправил заявку с описанием доклада на Highload и стал ждать. После полугода мне пришло подтверждение и я отправился в путь, надеясь не только познакомиться с коллегами, работающими в смежных областях, но и поднять свое Big Data сознание на новой уровень.

image

И наступил день первый ... и разверзлись врата ..

Обзор наиболее интересных материалов по анализу данных и машинному обучению №25 (1 — 7 декабря 2014)

Время на прочтение4 мин
Количество просмотров13K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Немцы создали библиотеку пьяных аудиозаписей

Время на прочтение1 мин
Количество просмотров21K
Эпиграф:
— Пил?
— Не пил!
— Скажи Гибралтар.
— Пил.


Тема немного курьезная, но мне кажется, что именно таких в последнее время не хватает на Хабре. Особенно в пятницу.



Итак, немецкие ученые из двух университетов Мюнхена создали базу аудизаписей, где записана речь 162-х людей в состояние алкогольного опьянения. Данные собирались с 2007 года по 2009 и теперь на основании базы данных создается языковой корпус (статья о корпусах на Вики) Alcohol Language Corpus (ALC).
Читать дальше →

Как узнать больше о ваших пользователях? Применение Data Mining в Рейтинге Mail.Ru

Время на прочтение8 мин
Количество просмотров20K


Любой интернет-проект можно сделать лучше. Реализовать новые фичи, добавить серверов, переделать интерфейс или выпустить новую версию API. Вашим пользователям это понравится. Или нет? И вообще, что это за люди? Молодые или в возрасте? Обеспеченные или скорее наоборот? Из Москвы? Питера? Сан-Франциско, штат Калифорния? И почему, в конце концов, те сто теплых пледов, что вы закупили еще в мае, пылятся на складе, а футболки с октокотами расходятся, как горячие пирожки? Получить ответы поможет проект Рейтинг Mail.Ru. Эта статья о том, как мы применяем data mining, чтобы ответить на самые сложные вопросы.
Читать дальше →

Информационные технологии и большие деньги

Время на прочтение6 мин
Количество просмотров10K
Банковские услуги существенны. Банки – нет.
Билл Гейтс

За несколько десятилетий информационные технологии изменили мир до неузнаваемости. Применительно к банковскому сектору и финансовым институтам чаще всего поднимаются вопросы государственного регулирования и защиты информации, а также вопросы противодействия отмыванию доходов, полученных преступным путем. Однако это не единственные вызовы, стоящие перед финансовым сектором. Клиентские потребности и привычки меняются с течением времени, и информационные технологии – один из важнейших драйверов.

Так, обеспеченные клиенты уже сейчас используют мобильные устройства не только для доступа к информации по счету и оплаты счетов, но и для заключения сделок.



Но дело не только в ежедневном использовании планшетов и смартфонов. Новое поколение клиентов требует новых каналов коммуникации и современных форм взаимодействия. При этом подобный запрос поступает, в том числе и от старшего поколения.
Читать дальше →

В поисках идеального файлового хранилища

Время на прочтение17 мин
Количество просмотров25K

Ранее мы рассматривали прототип масштабируемой read-only файловой системы. Удалось показать, что, используя предложенную архитектуру, можно построить файловую систему любой емкости, с гарантированным временем доступа, соизмеримым с таковым для доступа к файлу в пределах одного физического диска.
Далее постараемся разобраться, может ли подобный подход принести пользу при построении файловой системы общего назначения.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №24 (24 — 30 ноября 2014)

Время на прочтение4 мин
Количество просмотров14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Адаптивное обучение, или несколько слов о Knewton

Время на прочтение6 мин
Количество просмотров32K
Если вы интересуетесь современными технологиями в образовании, то вы, вероятно, уже знаете про Knewton. Если это не так, то информация ниже будет вам полезна!

Почему это важно?

Компания Knewton известна тем, что одной из первых стала активно применять технологии анализа данных в сфере образования. В результате этой работы была создана адаптивная образовательная платформа, которую можно подключить к любой современной системе управления учебным процессом (LMS).


Читать дальше →

Система DeepSort от Samsung заняла первое место на соревновании Sort Benchmark 2014

Время на прочтение2 мин
Количество просмотров10K
Добрый день, Хабр!

Cистема для сортировки данных DeepSort от компании Samsung Electronics заняла первое место на соревновании Sort Benchmark, известном как «Чемпионат мира» в области сортировки данных. Превзойдя конкурентные решения ведущих технологических компаний и исследовательских институтов, система от Samsung смогла проанализировать и реорганизовать 3,7 TБ данных за 60 секунд. Это более чем в два раза превышает предыдущий рекорд в 1,5 ТБ по результатам теста производительности MinuteSort Benchmark, который является отраслевым стандартом объема сортировки данных в минуту.

image
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №23 (17 — 23 ноября 2014)

Время на прочтение3 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

DataTalks 25.10.14: первая встреча

Время на прочтение4 мин
Количество просмотров8.3K
Добрый вечер! Сегодня вперые говорим об анализе данных в нашем блоге. Для многих это крайне актуальная тема. Однако в Беларуси не так много действительно полезных встреч и конференций, посвященных аналитике.
25 октября 2014 года в Минске состоялся первый DataTalks. DataTalks – это неформальные встречи специалистов в области анализа данных. Для участников это отличная возможность узнать об опыте применения аналитики в компаниях, работающих на мировом и местном рынках, а также познакомиться со специалистами в области анализа данных из различных индустрий.

Докладчики из Wargaming, Yandex, Dmlabs.org и Нанотех, на примерах решаемых ими задач, объясняли общие закономерности и применимость алгоритмов, которые важно знать и использовать при анализе данных в любой индустрии. Вопросы спикерам перерастали в профессиональные дискуссии, остановить которые не могло даже начало следующего доклада.

DataTalks
Читать дальше →

Конференция HDConf: видео-отчет

Время на прочтение2 мин
Количество просмотров8.7K
image

4 октября в Минске конференция Highload Dev Conf собрала более 350 разработчиков. С докладами выступили специалисты в разработке высоконагруженных систем из компаний Одноклассники, Amazon, Altoros, Wargaming, Coub, Aviasales, Badoo и др.

В прошлой статье мы опубликовали фотоотчёт конференции и слайды докладов. Как и обещали загрузили видео докладов.
Читать дальше →

Ближайшие события

Как мы делаем командные и ситуационные центры для крупных компаний

Время на прочтение6 мин
Количество просмотров42K

Индивидуальный командный центр капсульного типа: анатомическое кресло, панорамный монитор, панель управления, видео- и аудиосвязь, специальное ПО.


Центр принятия решений ОАО «Мосводоканал»

Комцентры или, как их правильно называют, ситуационные центры — это хорошо знакомая вам по фантастическим фильмам комната. Там обычно большая красивая видеостена, на которой можно наблюдать как коммунисты захватывают мир — или как поезда стремятся столкнуться друг с другом. На практике, конечно, использование СЦ намного прозаичнее, но случаются и кадры как в фильмах.
Читать дальше →

IBM запускает совместные магистерские программы в области Больших Данных с ведущими российскими университетами

Время на прочтение3 мин
Количество просмотров7.9K


IBM совместно с ведущими российскими вузами – Московским Государственным Университетом имени М.В. Ломоносова и Высшей Школой Экономики – объявляет о запуске магистерских программ, направленных на подготовку специалистов в области Больших Данных. Студенты, прошедшие обучение по этим программам, получат детальную информацию о методах и средствах организации Больших Данных, а также использовании Больших Данных для принятия взвешенных бизнес-решений.

По оценкам экспертов уже к 2015 году по всему миру будет создано 4,4 млн. рабочих мест для специалистов в области работы с Большими Данными. Востребованность профессионалов, обладающих подобными знаниями и навыками, обусловлена динамичным ростом объемов информации в мире. Уже сейчас различные сенсоры, RFID-метки, мобильные устройства и социальные сети ежедневно генерируют 2,5 млрд. гигабайт данных. В результате, компании, работающие в различных индустриях по всему миру, испытывают нехватку специалистов, которые могли бы извлекать ценную информацию из огромного массива данных. Наличие таких специалистов способствует повышению конкурентоспособности компании, ее вхождению на новые рынки и преодолению существующих сложностей в работе.

Читать дальше →

Киевский Speakers' Corner с Моти Грановски: «Intelligence to the masses: BI today & in the future», 26 ноября

Время на прочтение1 мин
Количество просмотров1.3K
Если вы интересуетесь темой «Big Data» и ищите интересные возможности для своего развития в области бизнес-аналитики, то Ciklum Speakers' Corner «Intelligence to the masses: BI today & in the future» — именно то, что вам нужно.
image
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №22 (10 — 16 ноября 2014)

Время на прочтение5 мин
Количество просмотров11K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Современное состояние М2М (machine-to-machine) систем

Время на прочтение3 мин
Количество просмотров9.1K
В настоящее время имеют широкое распространение беспроводные технологии, с помощью которых работают уже большинство устройств. Новые системы разрабатываются таким образом, чтобы как можно меньше зависеть от действий человека.

В данном обзоре дано общее понятие М2М системы, из чего состоит и где применяется эта система, обозначить преимущества и недостатки данной системы, а так же выявить ее дальнейшее развитие.

М2М — расшифровывается как machine-to-machine — дословно означает «от машины к машине», т.е. передача данных осуществляется непосредственно между устройствами. К примеру, передача данных с датчиков на сервер обработки.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №21 (3 — 9 ноября 2014)

Время на прочтение5 мин
Количество просмотров12K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Проектирование новостной ленты в социальных сетях

Время на прочтение9 мин
Количество просмотров40K


Так сложилось, что за последние пару лет я успел поучаствовать в разработке нескольких социальных сетей. Главная задача, которую приходилось решать в каждом из этих проектов, заключалась в формировании новостной ленты пользователя. При чём важным условием была возможность масштабирования этой ленты в условиях роста числа пользователей (точнее, числа связей между ними) и, как следствие, — количества контента, который они деливерят друг другу.

Мой рассказ будет о том, как я, превозмогая трудности, решал задачу формирования новостной ленты. А также я расскажу о подходах, которые наработали ребята из проекта Socialite, и которыми они поделились на MongoDB World.
Читать дальше →

Вклад авторов