Как стать автором
Обновить
113.25

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

[Перевод] Конфиденциальность в офисе: где черта, которую не стоит пересекать

Время на прочтение4 мин
Количество просмотров41K


Скажем прямо: посещение не относящихся к работе сайтов со своего рабочего места — явление обыденное. Как минимум, для тех, кто не лишен возможности это делать. Но в курсе ли вы, что начальство может следить за вашими похождениями?

С одной стороны современные инструменты анализа Big Data помогают крупным компаниям быть более продуктивными, ежедневно предоставляя сотрудникам данные полезные в их работе. С другой стороны, работодатели, почти наверняка, испытывают искушение собрать некоторые данные и о самих сотрудниках. В эпоху бурного цифрового преобразования такие компании могут отслеживать не только привычки клиентов, но и поведение собственного персонала.

Такова текущая реальность. Компании, наделенные инструментами обработки Big Data все чаще направляют свой взор внутрь. Переходят ли они при этом границу конфиденциальности на рабочем месте? — Вам решать.

Читать дальше →
Всего голосов 45: ↑35 и ↓10+25
Комментарии136

Исследуем и тестируем распределенные вычисления от Hazelcast

Время на прочтение6 мин
Количество просмотров7.7K
Продолжаем тестировать Hazelcast. В предыдущем посте мы познакомились с его очередями. А в этом мы более внимательно взглянем на его возможность распределенного выполнения задач.

Работать с данными гораздо эффективнее как можно ближе к ним, а не выкачивать «к себе», потом считать и\или изменять и отправлять обратно в распределенное хранилище. Именно такую возможность нам предоставляет Hazelcast в виде распределенной реализации ExecutorService. Можно управлять и тем, на каких серверах хранить данные, группируя их по общему ключу, и запускать задачи на нужных серверах, используя тот-же ключ.

Мы попытаемся выяснить — так ли это и есть ли какие подводные камни?

Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии3

Обзор наиболее интересных материалов по анализу данных и машинному обучению №4 (23 июня — 7 июля 2014)

Время на прочтение5 мин
Количество просмотров9.5K

Прошлый выпуск обзора был полностью посвящен онлайн-курсам по тематике Data Science. Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению будет содержать ссылки на свежие материалы по тематике. В данном выпуске некоторое количество материалов посвящено важной теме визуализации данных. Есть несколько статей, которые описывают небольшие практические примеры анализа данных. Как обычно много статей посвящено алгоритмам машинного обучения, в том числе несколько статей посвящены популярным алгоритмам машинного обучения Deep Learning и Random Forest. Также есть несколько ссылок на интересные видеоматериалы.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии0

Дайджест статей по анализу данных №4 (23.06.2014 —06.07.2014)

Время на прочтение2 мин
Количество просмотров7.8K

Добрый день, уважаемые читатели.
Пролетели 2 недели и я представляю Вам новую подборку материалов на тему анализа данных. В этот раз материала получилось довольно не много, но от этого статьи и заметки попавшие в дайджест не становятся менее интересными.
Итак, из сегодняшней подборки вы узнаете как классифицировать текст с помощью наивного Байеса, узнаете как увеличить скорость градиентного спуска. Кроме этого будет очередная статья о том, чем должен пользоваться аналитик и какими навыками обладать и еще много чего интересного

Читать дальше →
Всего голосов 20: ↑17 и ↓3+14
Комментарии0

Истории

Эффективная оценка медианы

Время на прочтение5 мин
Количество просмотров34K
Итак, у Вас есть какой-то поток данных. Большой такой поток. Или уже готовый набор. И хочется определить какие-то его характеристики. Алгоритм определения минимального и максимального значения могут придумать даже не программисты. Вычисление среднего уже чуть сложнее, но тоже не представляет никаких трудностей — знай подсчитывай себе сумму да инкрементируй счетчик на каждое новое значение. Среднеквадратичное отклонение — все то же самое, только числа другие. А как насчет медианы?

Для тех, кто забыл, что это такое, напоминаю — медиана (50-й перцентиль) выборки данных — это такое значение, которое делит эту выборку пополам — данные из одной половины имеют значение не меньше медианы, а из второй — не больше. Ценность её заключается в том, что её значение не зависит от величины случайных всплесков, которые могут очень сильно повлиять на среднее.

Строго говоря, из определения следует, что для вычисления точного значения медианы нам нужно хранить всю выборку, иначе нет никаких гарантий, что мы насчитали именно то, что хотели. Но для непрерывных и больших потоков данных точное значение все равно не имеет большого смысла — сейчас оно одно, а через новых 100 отсчетов — уже другое. Поэтому эффективный метод оценки медианы, который не будет требовать много памяти и ресурсов CPU, и будет давать точность порядка одного процента или лучше — как раз то что нужно.
Читать дальше →
Всего голосов 27: ↑24 и ↓3+21
Комментарии22

В Openstat стали доступны мета-счетчики и мета-анализ

Время на прочтение4 мин
Количество просмотров3.5K
На днях Openstat втихаря выкатил новую функцию, которая официально называется «Группировка счетчиков».

Скажу сразу, я был несколько против такого названия, но прогнулся под аргументами других участников этой разработки. Меж тем, внутри компании мы по-прежнему продолжаем называть этот инструмент «мета-счетчиком», поэтому позвольте мне иногда использовать в своей заметке и такое название.

Теперь к сути… что такое мета-счетчик? В нашем случае это статистика и аналитика, получаемая на основе данных, поступающих не с одного, а сразу с нескольких счетчиков.

Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии10

Кластерный анализ (на примере сегментации потребителей) часть 1

Время на прочтение4 мин
Количество просмотров49K
Мы знаем, что Земля – это одна из 8 планет, которые вращаются вокруг Солнца. Солнце – это всего лишь звезда среди порядка 200 миллиардов звезд в галактике Млечный Путь. Очень тяжело осознать это число. Зная это, можно сделать предположение о количестве звезд во вселенной – приблизительно 4X10^22. Мы можем видеть около миллиона звезд на небе, хотя это всего лишь малая часть от всего фактического количества звезд. Итак, у нас появилось два вопроса:
  1. Что такое галактика?
  2. И какая связь между галактиками и темой статьи (кластерный анализ)

image
Читать дальше →
Всего голосов 9: ↑6 и ↓3+3
Комментарии4

Исследуем и тестируем очереди от Hazelcast

Время на прочтение5 мин
Количество просмотров43K
Многие из нас слышали о Hazelcast. Это удобный продукт, который реализует различные распределенные объекты. В частности: key-value хранилища, очереди, блокировки и т.д. К нему в целом применяются утверждения о распределенности, масштабируемости, отказоустойчивости и другие положительные свойства.

Так ли это применительно к его реализации очередей? Где границы их использования? Это мы и попытаемся выяснить.
Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии5

Работа с геолокациями в режиме highload

Время на прочтение6 мин
Количество просмотров60K
При разработке ПО часто возникают интересные задачи. Одна из таких: работа с гео-координатами пользователей. Если вашим сервисом пользуются миллионы пользователей и запросы к РСУБД происходят часто, то выбор алгоритма играет важную роль. О том как оптимально обрабатывать большое количество запросов и искать ближайшие гео-позиции рассказано под катом.

image
Читать дальше →
Всего голосов 37: ↑35 и ↓2+33
Комментарии12

Обзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)

Время на прочтение7 мин
Количество просмотров27K

Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:
Читать дальше →
Всего голосов 28: ↑26 и ↓2+24
Комментарии5

Обзор наиболее интересных материалов по анализу данных и машинному обучению №2 (16 — 23 июня 2014)

Время на прочтение4 мин
Количество просмотров13K

В очередном обзоре наиболее интересных материалов, посвященных теме анализа данных и машинного обучения, достаточно большое внимание уделено популярному набору алгоритмов машинного обучения Deep Learning и его практическому применению. Несколько статей посвящено тому какие есть пути для собственного развития как специалиста по анализу данных и машинному обучению. Также несколько статей касаются такой темы как Data Engineering и рассматривают такие популярные продукты как Cassandra и Apache Kafka. Но начинается данный выпуск с обзора стартующих в ближайшее онлайн-курсов, связанных с темой анализа данных и машинного обучения.
Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии1

HP Vertica, проектирование хранилища данных, больших данных

Время на прочтение8 мин
Количество просмотров32K
UPD: Продолжение статьи по ссылке — habrahabr.ru/company/avito/blog/322510

О чем статья

Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд.

Постановка задачи

Рассмотрим высоконагруженный сайт крупной российской интернет-компании (теперь можно — это Авито ;)).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии10

Где и как используются возможности IBM Watson? Часть 2

Время на прочтение3 мин
Количество просмотров14K


В первой части обзора направлений использования возможностей суперкомпьютера IBM Watson было показано, что Watson работает в онкологии, помогая разрабатывать персональный курс лечения для конкретного человека.

Кроме того, IBM Watson работает еще и в сфере медицинского страхования, в банковской сфере, суперкомпьютер помогает исследователям находить взаимосвязи между различными аспектами их работы, а также начинает помогать чиновникам.

Читать дальше →
Всего голосов 14: ↑14 и ↓0+14
Комментарии1

Ближайшие события

22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

Дайджест статей по анализу данных №3 (09.06.2014 —22.06.2014)

Время на прочтение5 мин
Количество просмотров20K

Добрый день, уважаемые читатели.
Пролетели 2 недели и пришло время нашей подборки материалов по анализу данных. Сегодняшний дайджест получился большим, и признаюсь често сам осилил не все, что в него попало. Но так как на вкус и цвет товарище нет, то я решил выложить всю подборку.
Итак, из сегодняшней подборки вы узнаете о том как использовать хранилища данных различных типов в одном проекте, посмотрите какими большими данными может обладать бизнес и как их анализ может ему помочь. Также в нашей подборке будет статья посвященная алгоритму FTCA, а также будет материал про сравнени различных алгоритмов машинного обучения.
Читать дальше →
Всего голосов 52: ↑47 и ↓5+42
Комментарии2

Обзор наиболее интересных материалов по анализу данных и машинному обучению №1 (9 — 16 июня 2014)

Время на прочтение3 мин
Количество просмотров17K

Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Читать дальше →
Всего голосов 25: ↑22 и ↓3+19
Комментарии6

Бизнес и Большие данные: лаборатория FABERNOVEL

Время на прочтение3 мин
Количество просмотров8.8K


Big Data — термин, который уже стал настоящим «базвордом», настолько популярна эта тема. Все больше людей и компаний из самых разных частей света и отраслей начинают понимать важность анализа данных. Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии21

На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира

Время на прочтение3 мин
Количество просмотров5.4K
Большинство из нас будут смотреть футбольный ЧМ. И пусть эксперты говорят, что нашей сборной как всегда ничего не светит, красота мирового футбола захватит даже тех, кто и болельщиком себя не считает. А задумывались ли вы о красоте «совместного боления»? Ощутить себя на огромной всемирной трибуне, услышать что говорят и чувствуют болельщики из разных стран, увидеть матчи их глазами… Современные технологии обработки неструктурированных данных делают мечту болельщиков реальностью. Ежеминутно тысячи футбольных твитов, инстаграм-фоток и youtube-роликов создаются нами, болельщиками, уже сейчас, еще до начала ЧМ. Представляете, что будет во время матчей?! Осталось собрать «Всемирную Трибуну Болельщиков», что мы и сделаем из подручных материалов вместе, быстро, и под катом.

fans_2936689b.jpg
Читать дальше →
Всего голосов 19: ↑16 и ↓3+13
Комментарии1

IBM Watson: где и как сейчас используются возможности суперкомпьютера?

Время на прочтение3 мин
Количество просмотров25K


На Хабре уже писали о том, что IBM Watson научился составлять рецепты, получил медицинское образование, и опробовал себя в роли продавца-консультанта. Само собой, все это были только тестовые проекты, которые служили как для обучения системы IBM Watson, так и для проверки возможностей суперкомпьютера.

И не так давно корпорация IBM открыла ресурсы суперкомпьютера Watson для сторонних разработчиков. В результате планировалось получить разнообразнейшие проекты, где в полной мере используются возможности IBM Watson. Некоторые идеи уже реализованы, и ниже приведены примеры наиболее интересных проектов.

Читать дальше →
Всего голосов 27: ↑25 и ↓2+23
Комментарии6

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)

Время на прочтение5 мин
Количество просмотров20K
Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборке вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшие шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать дальше →
Всего голосов 42: ↑40 и ↓2+38
Комментарии13

Секретная служба США покупает софт, распознающий сарказм в соцсетях

Время на прочтение1 мин
Количество просмотров53K


В заказе, выложенном онлайн в понедельник, СС описывает потребность в сервисе, способном, среди прочего, анализировать большие объёмы данных из социальных медиа и визуализировать результат. Распознавание сарказма — только одна из многочисленных функций требуемого софта, но именно она привлекла внимание журналистов «Вашингтон пост», заголовки в котором звучат (в тестовых, надо полагать, целях): «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. (Ага, удачи)» и «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. Не сомневаемся, что это сработает».
Читать дальше →
Всего голосов 109: ↑85 и ↓24+61
Комментарии80

Вклад авторов

Работа

Data Scientist
71 вакансия