Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

zuborg 3 июл 2014 в 12:03

Эффективная оценка медианы

5 мин

34K

Алгоритмы * Big Data *

Итак, у Вас есть какой-то поток данных. Большой такой поток. Или уже готовый набор. И хочется определить какие-то его характеристики. Алгоритм определения минимального и максимального значения могут придумать даже не программисты. Вычисление среднего уже чуть сложнее, но тоже не представляет никаких трудностей — знай подсчитывай себе сумму да инкрементируй счетчик на каждое новое значение. Среднеквадратичное отклонение — все то же самое, только числа другие. А как насчет медианы?

Для тех, кто забыл, что это такое, напоминаю — медиана (50-й перцентиль) выборки данных — это такое значение, которое делит эту выборку пополам — данные из одной половины имеют значение не меньше медианы, а из второй — не больше. Ценность её заключается в том, что её значение не зависит от величины случайных всплесков, которые могут очень сильно повлиять на среднее.

Строго говоря, из определения следует, что для вычисления точного значения медианы нам нужно хранить всю выборку, иначе нет никаких гарантий, что мы насчитали именно то, что хотели. Но для непрерывных и больших потоков данных точное значение все равно не имеет большого смысла — сейчас оно одно, а через новых 100 отсчетов — уже другое. Поэтому эффективный метод оценки медианы, который не будет требовать много памяти и ресурсов CPU, и будет давать точность порядка одного процента или лучше — как раз то что нужно.

Читать дальше →

+20

volk 3 июл 2014 в 11:54

В Openstat стали доступны мета-счетчики и мета-анализ

4 мин

3.6K

Блог компании OpenstatBig Data *

На днях Openstat втихаря выкатил новую функцию, которая официально называется «Группировка счетчиков».

Скажу сразу, я был несколько против такого названия, но прогнулся под аргументами других участников этой разработки. Меж тем, внутри компании мы по-прежнему продолжаем называть этот инструмент «мета-счетчиком», поэтому позвольте мне иногда использовать в своей заметке и такое название.

Теперь к сути… что такое мета-счетчик? В нашем случае это статистика и аналитика, получаемая на основе данных, поступающих не с одного, а сразу с нескольких счетчиков.

Читать дальше →

+11

great_boba 3 июл 2014 в 07:54

Кластерный анализ (на примере сегментации потребителей) часть 1

4 мин

50K

Data Mining * Big Data *

Туториал

Перевод

Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:

Что такое галактика?
И какая связь между галактиками и темой статьи (кластерный анализ)

Читать дальше →

+2

romario13 2 июл 2014 в 13:35

Исследуем и тестируем очереди от Hazelcast

5 мин

44K

Высоконагруженные системы * Java * Big Data *

Многие из нас слышали о Hazelcast. Это удобный продукт, который реализует различные распределенные объекты. В частности: key-value хранилища, очереди, блокировки и т.д. К нему в целом применяются утверждения о распределенности, масштабируемости, отказоустойчивости и другие положительные свойства.

Так ли это применительно к его реализации очередей? Где границы их использования? Это мы и попытаемся выяснить.

Читать дальше →

+5

FallDi 1 июл 2014 в 18:05

Работа с геолокациями в режиме highload

6 мин

61K

Big Data * PostgreSQL * Геоинформационные сервисы *

При разработке ПО часто возникают интересные задачи. Одна из таких: работа с гео-координатами пользователей. Если вашим сервисом пользуются миллионы пользователей и запросы к РСУБД происходят часто, то выбор алгоритма играет важную роль. О том как оптимально обрабатывать большое количество запросов и искать ближайшие гео-позиции рассказано под катом.

Читать дальше →

+32

moat 30 июн 2014 в 19:06

Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

7 мин

27K

Data Mining * Big Data *

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:

Читать дальше →

+23

moat 23 июн 2014 в 15:33

Обзор наиболее интересных материалов по анализу данных и машинному обучению №2 (16 — 23 июня 2014)

4 мин

13K

Data Mining * Big Data *

В очередном обзоре наиболее интересных материалов, посвященных теме анализа данных и машинного обучения, достаточно большое внимание уделено популярному набору алгоритмов машинного обучения Deep Learning и его практическому применению. Несколько статей посвящено тому какие есть пути для собственного развития как специалиста по анализу данных и машинному обучению. Также несколько статей касаются такой темы как Data Engineering и рассматривают такие популярные продукты как Cassandra и Apache Kafka. Но начинается данный выпуск с обзора стартующих в ближайшее онлайн-курсов, связанных с темой анализа данных и машинного обучения.

Читать дальше →

+17

azathot 23 июн 2014 в 14:44

HP Vertica, проектирование хранилища данных, больших данных

8 мин

33K

Big Data * SQL *

UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.

Читать дальше →

+14

marks 23 июн 2014 в 13:49

Где и как используются возможности IBM Watson? Часть 2

3 мин

14K

Блог компании IBMBig Data *

В первой части обзора направлений использования возможностей суперкомпьютера IBM Watson было показано, что Watson работает в онкологии, помогая разрабатывать персональный курс лечения для конкретного человека.

Кроме того, IBM Watson работает еще и в сфере медицинского страхования, в банковской сфере, суперкомпьютер помогает исследователям находить взаимосвязи между различными аспектами их работы, а также начинает помогать чиновникам.

Читать дальше →

+13

kuznetsovin 22 июн 2014 в 15:03

Дайджест статей по анализу данных №3 (09.06.2014 —22.06.2014)

5 мин

20K

Data Mining * Big Data *

Добрый день, уважаемые читатели.
Пролетели 2 недели и пришло время нашей подборки материалов по анализу данных. Сегодняшний дайджест получился большим, и признаюсь често сам осилил не все, что в него попало. Но так как на вкус и цвет товарище нет, то я решил выложить всю подборку.
Итак, из сегодняшней подборки вы узнаете о том как использовать хранилища данных различных типов в одном проекте, посмотрите какими большими данными может обладать бизнес и как их анализ может ему помочь. Также в нашей подборке будет статья посвященная алгоритму FTCA, а также будет материал про сравнени различных алгоритмов машинного обучения.

Читать дальше →

+41

moat 18 июн 2014 в 11:19

Обзор наиболее интересных материалов по анализу данных и машинному обучению №1 (9 — 16 июня 2014)

3 мин

17K

Data Mining * Big Data *

Из песочницы

Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.

Читать дальше →

+19

fabernovel 16 июн 2014 в 11:03

Бизнес и Большие данные: лаборатория FABERNOVEL

3 мин

8.9K

Блог компании FaberNovelBig Data *

Big Data — термин, который уже стал настоящим «базвордом», настолько популярна эта тема. Все больше людей и компаний из самых разных частей света и отраслей начинают понимать важность анализа данных. Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.

Читать дальше →

+14

CvetKomm 11 июн 2014 в 10:36

На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира

3 мин

5.4K

Блог компании Brand AnalyticsБлог компании PalitrumLabBig Data *

Большинство из нас будут смотреть футбольный ЧМ. И пусть эксперты говорят, что нашей сборной как всегда ничего не светит, красота мирового футбола захватит даже тех, кто и болельщиком себя не считает. А задумывались ли вы о красоте «совместного боления»? Ощутить себя на огромной всемирной трибуне, услышать что говорят и чувствуют болельщики из разных стран, увидеть матчи их глазами… Современные технологии обработки неструктурированных данных делают мечту болельщиков реальностью. Ежеминутно тысячи футбольных твитов, инстаграм-фоток и youtube-роликов создаются нами, болельщиками, уже сейчас, еще до начала ЧМ. Представляете, что будет во время матчей?! Осталось собрать «Всемирную Трибуну Болельщиков», что мы и сделаем из подручных материалов вместе, быстро, и под катом.

Читать дальше →

+12

marks 10 июн 2014 в 10:35

IBM Watson: где и как сейчас используются возможности суперкомпьютера?

3 мин

25K

Блог компании IBMBig Data *

На Хабре уже писали о том, что IBM Watson научился составлять рецепты, получил медицинское образование, и опробовал себя в роли продавца-консультанта. Само собой, все это были только тестовые проекты, которые служили как для обучения системы IBM Watson, так и для проверки возможностей суперкомпьютера.

И не так давно корпорация IBM открыла ресурсы суперкомпьютера Watson для сторонних разработчиков. В результате планировалось получить разнообразнейшие проекты, где в полной мере используются возможности IBM Watson. Некоторые идеи уже реализованы, и ниже приведены примеры наиболее интересных проектов.

Читать дальше →

+22

kuznetsovin 8 июн 2014 в 14:44

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)

5 мин

20K

Data Mining * Big Data *

Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборке вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшие шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать дальше →

+37

EgorKotkin 4 июн 2014 в 11:36

Секретная служба США покупает софт, распознающий сарказм в соцсетях

1 мин

53K

В заказе, выложенном онлайн в понедельник, СС описывает потребность в сервисе, способном, среди прочего, анализировать большие объёмы данных из социальных медиа и визуализировать результат. Распознавание сарказма — только одна из многочисленных функций требуемого софта, но именно она привлекла внимание журналистов «Вашингтон пост», заголовки в котором звучат (в тестовых, надо полагать, целях): «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. (Ага, удачи)» и «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. Не сомневаемся, что это сработает».

Читать дальше →

+60

Makeomatic 2 июн 2014 в 11:01

Масштабируем Elasticsearch на примере кластера с индексами в несколько терабайт

5 мин

34K

Из песочницы

Низкая скорость поисковых запросов

Работая над поисковым движком по социальной информации (ark.com), мы остановили свой выбор на Elasticsearch, так как по отзывам он был очень легок в настройке и использовании, имел отличные поисковые возможности и, в целом, выглядел как манна небесная. Так оно и было до тех пор, пока наш индекс не вырос до более-менее приличных размером ~ 1 миллиарда документов, размер с учетом реплик уже перевалил за 1,5 ТБ.

Даже банальный Term query мог занять десятки секунд. Документации по ES не так много, как хотелось бы, а гуглинг данного вопроса выдавал результаты 2х-летней давности по совсем не актуальным версиям нашего поискового движка (мы работаем с 0.90.13 — что тоже не достаточно старая вещь, но мы не можем позволить себе опустить весь кластер, обновить его, и запустить заново на текущий момент — только роллинг рестарты).

Низкая скорость индексации

Вторая проблема — мы индексируем больше документов в секунду (порядка 100к), чем Elasticsearch может обрабатывать. Тайм-ауты, огромная нагрузка на Write IO, очереди из процессов в 400 единиц. Все выглядит очень страшно, когда смотришь на это в Marvel.

Как решать эти проблемы — под катом

Читать дальше →

+23

kuznetsovin 30 мая 2014 в 07:10

250 миллионов международных событий в одном месте

1 мин

12K

Data Mining * Big Data *

Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.

Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.

Читать дальше →

+23

kuznetsovin 23 мая 2014 в 09:34

Дайджест статей по анализу данных и big data

2 мин

33K

Data Mining * Big Data *

Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать дальше →

+39

2ANikulin 23 мая 2014 в 02:43

Hive vs Pig. На что мне столько ETL?

8 мин

20K

Big Data * Data Mining * Hadoop *

Туториал

Лучше день потерять, но потом за пять минут долететь (с)

Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.

Читать дальше →

+18

1 2 ...

198

199 200 ...