Как стать автором
Поиск
Написать публикацию
Обновить
113.32

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Обзор наиболее интересных материалов по анализу данных и машинному обучению №8 (4 — 11 августа 2014)

Время на прочтение4 мин
Количество просмотров9.7K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Также в данном обзоре есть достаточно много статей, которые будут интересны новичкам. Несколько статей посвящено онлайн-курсам. Как обычно много материалов посвящено алгоритмам машинного обучения.

Читать дальше →

Новая версия HP Vertica: Dragline 7.1

Время на прочтение13 мин
Количество просмотров7.9K
image
8 августа 2014 года вышла новая версия HP Vertica 7.1. Команда Майкла Стоунбрейкера продолжает утверждать, что работа с большими данными сродни БАМу и продолжает новым версиям выдавать названия с строительной тематикой. Итак, Бульдозером (6 версия) по таблицам данные разровняли, сверху неструктурированными данными во Flex зону приложили (версия 7.0), пришла пора большого Экскаватора повернуть реки вспять. Встречаем версию Dragline 7.1! В этой статье я опишу, что же изменилось в новой версии.

Расширения функциональности проекций


Напомню для тех, кто в курсе и расскажу для тех, кто не знает: проекцией в Vertica называется материализация данных таблицы. Таблица в Vertica это описание структуры таблицы (столбцов), constraints и партиций. А непосредственно данные хранятся в проекциях, которые создаются на таблицы. Проекции чем-то похожи на индексы, они хранят данные по всем или не всем столбцам таблицы. Может быть более одной проекции на таблицу, проекции могут хранить отсегментированные и отсортированные данные по разным правилам. Данные во всех проекциях автоматически обновляются при обновлении записей таблицы. Фактически проекции содержат данные таблицы полностью всех колонок или частично определенных колонок. Жертвуется дисковое место серверов кластера, но значительно ускоряются выборки для разных групп запросов.

Выражения в проекциях

До новой версии в проекциях можно был указать исключительно только колонки таблицы. Это накладывало определенные ограничения на использование проекций. Например, если в запросах часто в фильтрации использовалось выражение по колонкам таблицы, поиск по этому фильтру не был максимально эффективным за счет того, что в проекции не было возможности указать сортировать хранимые данные по выражению. Сортировка же по столбцам выражения вряд ли помогла повысить производительность. Это могло вылиться в достаточно серьезную проблему. В качестве решения потребовалось бы добавить в таблицу новую колонку, в которую можно сохранять результат вычисления. Так же потребовалось изменить алгоритм загрузки в эту таблицу данных первоисточников, чтобы во время загрузки заполнять вычисляемый столбец. Так же пришлось бы перегружать всю таблицу, чтобы заполнить добавленное поле. Если в таблице десятки и сотни миллиардов записей и в нее идет постоянная загрузка, такое решение физически было бы невыполнимо.

В новой версии для проекций введена возможность указать как столбцы, так и выражения:
CREATE PROJECTION sales_proj (sale_id, sale_count,  sale_price, sale_value) AS
  SELECT sale_id, sale_count, sale_price, sale_count * sale_price
  FROM sales 
  ORDER BY sale_count * sale_price
  SEGMENTED BY HASH(sale_id) ALL NODES KSAFE 1;


Следующий запрос к созданной проекции таблицы:
SELECT *
FROM sales_proj_b0
WHERE value > 1000000
ORDER BY value;

при выполнении фактически моментально отдаст результат, используя сортировку выражения.

На такие проекции накладываются следующие ограничения:
  • Нельзя использовать функции, которые могут изменить результат (например функцию TO_CHAR, так как она вернет разный результат в зависимости от выставленной кодировки клиента)
  • Нельзя использовать служебные мета функции
  • Нельзя обновлять записи таблицы оператором MERGE (UPDATE и DELETE разрешены)


Проекции такого типа можно создать и перестраивать на таблицу в любой момент времени, без остановки работы с ней пользователей и загрузки данных. Таким образом, проблема включения вычисляемого столбца в сортировку для повышения производительности запросов более не актуальна.
Читать дальше →

Made with IBM: где используются технологии IBM?

Время на прочтение3 мин
Количество просмотров21K


Не так давно в блоге IBM публиковалось несколько постов, в которых показывались возможности суперкомпьютера Watson и сферы практического применения этих возможностей. Вот первый пост по этой теме, а вот второй.

И в первой, и во второй записи упоминался не только Watson, но и другие технологии корпорации, включая IBM Cloud. Сейчас мы хотим показать области применения и других сервисов/технологий. И само собой, такая демонстрация возможностей будет проводиться на практических примерах.

Читать дальше →

Социально-культурная миграция 2600-летнего периода истории в 5 минутах: познавательная визуализация

Время на прочтение1 мин
Количество просмотров36K


Все дороги ведут в Рим — так было когда-то. Сейчас дороги ведут во многие места, и люди более-менее свободно путешествуют по миру, с целью обретения либо второй родины, либо просто места для комфортной жизни.

Maximilian Schich, историк из Техасского Университета в Далласе, использовал данные огромной базы данных Freebase для поиска путей миграции 120 тысяч человек, мыслителей, ученых, представителей культуры, с древних времен по наши дни.

Читать дальше →

Эволюция списка рекомендаций в SmartProgress

Время на прочтение4 мин
Количество просмотров5.6K
Выборка наиболее интересного пользовательского контента для пользователей — актуальная задача для многих проектов, и мы не исключение. В этой статье я хочу рассказать про то как мы решали эту задачу с момента старта проекта и до сегодняшнего дня на примере списка целей в SmartProgress.



Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №7 (28 июля — 4 августа 2014)

Время на прочтение4 мин
Количество просмотров9.9K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном обзоре есть несколько статей, которые будут интересны новичкам. Есть несколько любопытных видеолекций по тематике Data Science. В текущем выпуске как обычно много статей по машинному обучению и анализу данных с примерами кода на языка программирования R и Python. В обзоре также могут заинтересовать несколько обзоров книг по теме анализа данных.

Читать дальше →

10 заповедей Больших Данных

Время на прочтение2 мин
Количество просмотров4.4K
Заповеди навеяны содержанием книги «Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим»

Тема Больших Данных интересовала меня с самого начала её популяризации в России. Устав от агрессивного маркетинга производителей в этом направлении, пытающихся продать под видом Больших Данных всё что угодно, только не саму суть Больших Данных, и ангажированных статей ИТ-журналистов, воспевающих об эффективности и полезности Больших Данных в решении бизнес-задач, я решил прочесть книгу фаната технологического подхода Больших данных, профессора Оксфордского университета и со-автора, экономиста, в надежде найти там ответы на вопросы, раскрывающие суть Больших Данных. По мере прочтения в моей голове постепенно происходило осознание идей, заложенных в этой книге. На каком-то этапе я решил, что суть этой книги можно выразить в религиозном ключе, в виде коротких заповедей, гласящих об основных принципах и подходах, которые должны будут применяться в будущем мире Больших Данных.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №6 (21 — 28 июля 2014)

Время на прочтение4 мин
Количество просмотров9.9K

В очередном выпуске обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения некоторое количество статей посвящено практическому применению различных видов регрессии. Есть интересная серия статей о применении машинного обучения в трейдинге. Как обычно много материалов посвящено алгоритмам машинного обучения (в том числе нейронным сетям). Есть несколько любопытных видеолекций, а также много статей про практическое применение языка R при анализе данных и машинном обучении.

Читать дальше →

Я угадаю эту мелодию по трем нотам!

Время на прочтение2 мин
Количество просмотров10K


Так может ответить сейчас специально обученный командой исследователей компьютерный алгоритм, способный определять принадлежность мелодии к различным периодам (барокко, классицизм, романтизм и постромантизм) всего по трем нотам из любой части музыкальной композиции.

Правда, саму композицию по трем нотам система идентифицировать не сможет. Но это и не требуется — разработчики поставили перед собой задачу проанализировать эволюцию музыки за период в 200 лет (1730-1930 гг), и научить компьютерную систему правильно определять принадлежность мелодии к одному из указанных выше периодов/стилей.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №5 (7 — 21 июля 2014)

Время на прочтение5 мин
Количество просмотров11K

Представляю очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Как всегда есть материалы по алгоритмам машинного обучения (в том числе Deep Learning). Несколько практических статей по популярному пакету для машинного обучения Scikit-Learn для Python. Есть статьи, посвященные практическому применению языка R. Некоторое количество материалов посвящено теме Data Engineering. Присутствуют интересные статьи про популярные проекты 'Google Brain' и 'Project Adam'.

Читать дальше →

Lean Big Data на 6 сервисах Google

Время на прочтение5 мин
Количество просмотров20K
image

Здравствуй Хабр! Хочу рассказать как мы делали свою собственную Big Data.

Каждый стартап хочет собрать что-то дешевое, качественное и гибкое. Обычно так не бывает, но у нас, похоже, получилось! Ниже идёт описание нашего решения и много моего сугубо субъективного мнения по этому поводу.

И да, секрет в том, что используется 6 сервисов гугла и собственного кода почти не писалось.
Читать дальше →

Трансляция из морских глубин: 800 километровый канал NEPTUNE проводит интернет на дно океана

Время на прочтение16 мин
Количество просмотров41K

Вашему домашнему Ethernet кабелю на рабочем столе не приходится иметь дело c разными обитателями океанов, такими, например, как эта морская звезда.

Тектоническая плита Хуан де Фука — на сегодня одна из самых малых по размерам на Земле. Она находится в нескольких сотнях километров от Орегона, Вашингтон и побережья Британской Колумбии. Однако недостатки в размерах Хуан де Фука окупаются ее коммуникабельностью. Она стала домом для уникальной, высокоскоростной оптической кабельной сети, которая нашла свою дорогу через глубокое дно Тихого океана еще в конце 2009 года.

Этот канал прозвали NEPTUNE — the North-East Pacific Time-Series Underwater Networked Experiment (Северо-восточная тихоокеанская подводная экспериментальная сеть без временных перебоев — прим. переводчика). Его протяженность — более 800 километров, что сопоставимо с длиной 40 000 вагонов метро, сцепленных в один, длинный поезд.
Читать дальше →

[Перевод] Конфиденциальность в офисе: где черта, которую не стоит пересекать

Время на прочтение4 мин
Количество просмотров41K


Скажем прямо: посещение не относящихся к работе сайтов со своего рабочего места — явление обыденное. Как минимум, для тех, кто не лишен возможности это делать. Но в курсе ли вы, что начальство может следить за вашими похождениями?

С одной стороны современные инструменты анализа Big Data помогают крупным компаниям быть более продуктивными, ежедневно предоставляя сотрудникам данные полезные в их работе. С другой стороны, работодатели, почти наверняка, испытывают искушение собрать некоторые данные и о самих сотрудниках. В эпоху бурного цифрового преобразования такие компании могут отслеживать не только привычки клиентов, но и поведение собственного персонала.

Такова текущая реальность. Компании, наделенные инструментами обработки Big Data все чаще направляют свой взор внутрь. Переходят ли они при этом границу конфиденциальности на рабочем месте? — Вам решать.

Читать дальше →

Ближайшие события

Исследуем и тестируем распределенные вычисления от Hazelcast

Время на прочтение6 мин
Количество просмотров7.9K
Продолжаем тестировать Hazelcast. В предыдущем посте мы познакомились с его очередями. А в этом мы более внимательно взглянем на его возможность распределенного выполнения задач.

Работать с данными гораздо эффективнее как можно ближе к ним, а не выкачивать «к себе», потом считать и\или изменять и отправлять обратно в распределенное хранилище. Именно такую возможность нам предоставляет Hazelcast в виде распределенной реализации ExecutorService. Можно управлять и тем, на каких серверах хранить данные, группируя их по общему ключу, и запускать задачи на нужных серверах, используя тот-же ключ.

Мы попытаемся выяснить — так ли это и есть ли какие подводные камни?

Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

Время на прочтение5 мин
Количество просмотров9.5K

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Читать дальше →

Дайджест статей по анализу данных №4 (23.06.2014 —06.07.2014)

Время на прочтение2 мин
Количество просмотров7.8K

Добрый день, уважаемые читатели.
Пролетели 2 недели и я представляю Вам новую подборку материалов на тему анализа данных. В этот раз материала получилось довольно не много, но от этого статьи и заметки попавшие в дайджест не становятся менее интересными.
Итак, из сегодняшней подборки вы узнаете как классифицировать текст с помощью наивного Байеса, узнаете как увеличить скорость градиентного спуска. Кроме этого будет очередная статья о том, чем должен пользоваться аналитик и какими навыками обладать и еще много чего интересного

Читать дальше →

Эффективная оценка медианы

Время на прочтение5 мин
Количество просмотров34K
Итак, у Вас есть какой-то поток данных. Большой такой поток. Или уже готовый набор. И хочется определить какие-то его характеристики. Алгоритм определения минимального и максимального значения могут придумать даже не программисты. Вычисление среднего уже чуть сложнее, но тоже не представляет никаких трудностей — знай подсчитывай себе сумму да инкрементируй счетчик на каждое новое значение. Среднеквадратичное отклонение — все то же самое, только числа другие. А как насчет медианы?

Для тех, кто забыл, что это такое, напоминаю — медиана (50-й перцентиль) выборки данных — это такое значение, которое делит эту выборку пополам — данные из одной половины имеют значение не меньше медианы, а из второй — не больше. Ценность её заключается в том, что её значение не зависит от величины случайных всплесков, которые могут очень сильно повлиять на среднее.

Строго говоря, из определения следует, что для вычисления точного значения медианы нам нужно хранить всю выборку, иначе нет никаких гарантий, что мы насчитали именно то, что хотели. Но для непрерывных и больших потоков данных точное значение все равно не имеет большого смысла — сейчас оно одно, а через новых 100 отсчетов — уже другое. Поэтому эффективный метод оценки медианы, который не будет требовать много памяти и ресурсов CPU, и будет давать точность порядка одного процента или лучше — как раз то что нужно.
Читать дальше →

В Openstat стали доступны мета-счетчики и мета-анализ

Время на прочтение4 мин
Количество просмотров3.6K
На днях Openstat втихаря выкатил новую функцию, которая официально называется «Группировка счетчиков».

Скажу сразу, я был несколько против такого названия, но прогнулся под аргументами других участников этой разработки. Меж тем, внутри компании мы по-прежнему продолжаем называть этот инструмент «мета-счетчиком», поэтому позвольте мне иногда использовать в своей заметке и такое название.

Теперь к сути… что такое мета-счетчик? В нашем случае это статистика и аналитика, получаемая на основе данных, поступающих не с одного, а сразу с нескольких счетчиков.

Читать дальше →

Кластерный анализ (на примере сегментации потребителей) часть 1

Время на прочтение4 мин
Количество просмотров50K
Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:
  1. Что такое галактика?
  2. И какая связь между галактиками и темой статьи (кластерный анализ)

image
Читать дальше →

Исследуем и тестируем очереди от Hazelcast

Время на прочтение5 мин
Количество просмотров43K
Многие из нас слышали о Hazelcast. Это удобный продукт, который реализует различные распределенные объекты. В частности: key-value хранилища, очереди, блокировки и т.д. К нему в целом применяются утверждения о распределенности, масштабируемости, отказоустойчивости и другие положительные свойства.

Так ли это применительно к его реализации очередей? Где границы их использования? Это мы и попытаемся выяснить.
Читать дальше →

Вклад авторов