Все потоки
Поиск
Написать публикацию
Обновить
94.16

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

MongoDB от теории к практике. Руководство по установке кластера mongoDB

Время на прочтение9 мин
Количество просмотров90K
     Доброго времени суток, уважаемые читатели. В этом посте я хотел бы описать несколько примеров развертки mongoDB, отличия между ними, принципы их работы. Однако больше всего хотелось бы поделиться с вами практическом опытом шардирования mongoDB. Если бы этот пост имел план, он бы выглядел скорее всего так:

  1. Вступление. Кратко о масштабировании
  2. Некоторые примеры развертки mongoDB и их описание
  3. Шардинг mongoDB

    Пункты 1 и 2 — теоретические, а номер 3 претендует на практическое руководство по поднятию кластера mongoDB и больше всего подойдет тем, кто столкнулся с этим в первый раз.
Читать дальше →

Кризис докатился до облаков!

Время на прочтение1 мин
Количество просмотров4.1K
Вышел новый отчет Forrester “A Better But Still Subpar Global Tech Market In 2014 and 2015”. В нем аналитики спешат сообщить, что рынок облачных вычислений в 2014 с трудом вырастет на 6%.
Читать дальше →

Big data: размер имеет значение?

Время на прочтение5 мин
Количество просмотров22K


Перед всеми веб-разработчиками встает задача индивидуальной выборки контента для пользователей. С ростом объема данных и увеличением их разнообразия обеспечение точности выборки становится все более важной задачей, оказывающей существенное влияние на привлекательность проекта в глазах пользователей. Если вышеописанное входит в сферу ваших интересов, то, возможно, данный пост натолкнет на какие-то новые идеи.

В каждой эпохе развития IT-индустрии существовали свои buzzwords — слова, которые у всех были на слуху, каждый знал, что за ними будущее, но лишь немногие знали, что действительно стоит за этим словом и как им правильно воспользоваться. В своем время баззвордами были и «водопад», и «XML», и «Scrum», и «веб-сервисы». Сегодня одним из основных претендентов на звание баззворда №1 является «big data». С помощью больших данных британские ученые диагностируют беременность по чеку из супермакета с точностью, близкой к ХГЧ-тесту. Крупные вендоры создают платформы для анализа больших данных, стоимость которых зашкаливает за миллионы долларов, и нет сомнений, что каждый пиксель в любом уважающем себя интернет-проекте будет строиться с учетом больших данных не позднее, чем к 2020 году.
Читать дальше →

Эффективность персональных рекомендаций: контекстный подход

Время на прочтение4 мин
Количество просмотров4.7K
Персональные рекомендации, как первый этап персонализации Интернета в целом, направлены на облегчение поиска информации. Но целесообразность их использования остается достаточно спорной.

У нас была возможность оценить эффективность наиболее популярных подходов к формированию рекомендаций пользователю. Наша система обработала информацию, полученную от нескольких сервисов (на правах партнеров), которые предлагали своим пользователям рекомендации информационного контента и рекламных баннеров и фиксировали реакцию пользователя на них (клик/отсутствие клика). Таким образом, для анализа мы получили 13,4 млн рекомендаций, сформированных на основе разных методов.
Читать дальше →

Такси в Нью-Йорке: визуализация перемещений за год

Время на прочтение1 мин
Количество просмотров21K


Наверное, в Нью-Йорке самый большой таксопарк в мире, или один из самых больших. За последний год, по данным MIT, 13500 такси перевезли более 17 миллионов пассажиров. Это, сами понимаете, очень много.

Благодаря современным технологиям специалистам удалось перевести все данные по перемещениям такси (использовались GPS-координаты) за последний год в графику. И результат получился достаточно интересным.

Читать дальше →

Hadoop, часть 3: Pig, обработка данных

Время на прочтение8 мин
Количество просмотров28K
des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать дальше →

Как обеспечить надежное хранение больших объемов данных в рамках умеренного бюджета

Время на прочтение9 мин
Количество просмотров24K
Добрый день, Хабрахабр! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis.

Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC  уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше.
Читать дальше →

Единый интерфейс управления рекламой на сайте

Время на прочтение4 мин
Количество просмотров19K
Монетизация собственного проекта – всегда вызов. Самый простой вариант: поставить на него тизерную рекламу или контекст, и наблюдать, сколько денег капает в карман. Но этот же вариант часто оказывается разочаровывающим – заработок не стоит усилий по его приобретению. Так ли плоха тизерная/контекстная реклама для монетизации сайтов? Скорее всего, вы просто не умеете её готовить.


В зависимости характера вашего трафика, его источников и состава, будет меняться прибыльность той или иной рекламной сети
Читать дальше →

Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе

Время на прочтение3 мин
Количество просмотров107K
Директор по маркетингу сервисов Яндекса Андрей Себрант рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.




Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Конспект лекции

Можем ли мы доверять решению компьютера, если не можем его проверить?

Время на прочтение1 мин
Количество просмотров20K
Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки?


Читать дальше →

Как сохранить олимпиаду?

Время на прочтение4 мин
Количество просмотров24K
Все средства массовой информации в последнее врем живут и дышат только Олимпиадой. Дабы не нарушать этот тренд и не упускать возможность поделиться экспертизой вопроса хранения данных на подобном событии, позволю себе немного порассуждать на тему взаимного проникновения технологий в спорт и спорта в технологии.
image
По некоторым данным олимпиада в Сочи стала большим событием не только для спортсменов и болельщиков, но и для российского IT сообщества, т.к. явила собой пример использования последних веяний IT индустрии для спортивных мероприятий.
Внутри всё устроено следующим образом:

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT-продажи»

Время на прочтение10 мин
Количество просмотров2.5K
Образовательный проект GeeksLab продолжает работу над мероприятиями и сегодня мы расскажем о конференциях, которые пройдут в марте в Одессе, а также поговорим о предстоящих ивентах и хакатонах.

5 марта – Al&BigData Lab.
Конференция «AI&BigData Lab» будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.
Основная цель проведения – это обмен опытом среди разработчиков по теме, которой сейчас интересуются многие, объединения сообщества для более эффективного развития проектов, а также создание и продвижение решений big data и искусственный интеллект в Украине. Мы планируем также заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе.

12 марта – Just Sell IT! Эффективные IT-продажи.
Ни для кого не секрет, что секрет как успешного стартапа, так и прибыльной аутсорсинговой компании не только в техническом выполнении проекта, а и в искусстве переговоров, эффективном email маркетинге, умении найти подход и заинтересовать своим продуктом и\или сервисом как отечественного, так и зарубежного заказчика. Будет два потока — для стартапов и для компаний, с устоявшейся системой продаж (много внимания уделим аутсорсингу).

Читать дальше →

За посетителями аэропорта Ньюарка будут следить светодиодные лампы

Время на прочтение4 мин
Количество просмотров7.2K
Имея головной офис в США, наша команда заинтересовалась новостями международного аэропорта Ньюарка. Ньюарка, расположенный в черте городов Ньюарк и Элизабет (Нью-Джерси) аэропорт, находится в 24 километрах к юго-западу от нью-йоркского района Мидтаун. Ньарка – второй по величине аэропорт после аэропорта Хьюстон Интерконтинентал авиакомпании Continental Airlines.

И сегодня посетители терминала B в международном аэропорте Ньюарк Либерти могут заметить яркое, чистое освещение, интерьер аэропорта недавно дополнен 171 светодиодной лампой. Но посетители, вероятнее всего, не будет понимать, что эти светильники являются основой системы, которая за ними наблюдает.

image
Читать дальше →

Ближайшие события

Как мы используем инфраструктуру обработки данных в Sports.ru и Tribuna.com?

Время на прочтение6 мин
Количество просмотров47K
Год назад мы отказались от всех публичных счетчиков в пользу закрытых сервисов и собственной инфраструктуры обработки данных. Собирая на Олимпиаде по 10 млн. хитов в сутки, мы нащупали предел доброты Google Analytics, за которым бесплатное обслуживание уже не возможно. Но теперь у нас есть свой лунапарк со сверткой и графиками, поэтому мы можем легко снизить интенсивность использования GA, сохранив за ним только аудиторские функции. О том, как мы собираем данные и как используем их в своей работе – в простыне с веселыми картинками внутри.

У нас нет такого помещения с мониторами и славными бородатыми парнями. Эта картинка найдена в Интернете и сделана в NOC Wallmart. Парни могут себе позволить )
Читать дальше →

Конференция по большим данным и искусственному интеллекту AI&BigData Lab

Время на прочтение2 мин
Количество просмотров7.1K


Проект GeeksLab приглашает всех 5 марта в Одессу на конференцию «AI&BigData Lab», которая будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.

Конференция пройдет в два потока, в рамках которых разработчики обсудят технические вопросы реализации и применения в реальных проектах различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о их функционале, а также показано, как они работают внутри.
Читать дальше →

Первое Февраля — День Помощи

Время на прочтение1 мин
Количество просмотров1.1K
image

Поздравляю всех с F1 — интернациональным днём помощи.

Не забывайте помогать в этот день друг другу и не другу не жалея сил, денег и подсказок.

Начало подготовки конференции AI&BigData Lab

Время на прочтение1 мин
Количество просмотров2.8K

За последние несколько месяцев команда проекта GeeksLab провела ряд конференций: «FOSS Sea» и "Happу New Front-End! О фронтенде по-новому!". Видеозаписи докладов первой конференции, которая была посвящена разработке бекенда на JavaScript и облачным технологиям, мы уже выложили, а видеозаписи второй готовим к публикации в ближайшее время.

Сегодня же мы приглашаем всех 5 марта в Одессу принять участие в нашей новой конференции, посвященной искусственному интеллекту и большим данным «AI&BigData Lab». В рамках конференции планируется осветить современные технологии обработки и анализа больших данных, а также показать их практическое применение в реальных проектах.

Мероприятие техническое, поэтому будет интересно в первую очередь разработчикам, тимлидам, проджект менеджерам и техническим директорам.

Программа конференции находится на стадии формирования. Чтобы стать докладчиком, необходимо подать заявку до 10 февраля, отправив тему доклада и её краткое описание Дмитрию Сподарцу по адресу: m31@rootuamedia.com или в скайп m31-rootua.
Читать дальше →

Распределение строк и доступ в СУБД Teradata (Primary Index)

Время на прочтение3 мин
Количество просмотров19K
Предыдущий пост: Что такое Teradata?

Как Teradata распределяет строки?

  • Teradata использует алгоритм хэширования для рандомного распределения строк таблицы между AMP-ами (преимущества: распределение одинаково, независимо от объема данных, и зависит от содержания строки, а не демографии данных)
  • Primary Index определяет, будут ли строки таблицы распределены равномерно или неравномерно между AMP-ами
  • Равномерное распределение строк таблицы ведет к равномерному распределению нагрузки
  • Каждый AMP отвечает только за свое подмножество строк каждой таблицы
  • Строки размещаются неупорядоченно (преимущества: не требуется поддержка сохранения порядка, порядок не зависит от любого представленного запроса)


Primary Key (PK) vs. Primary Index (PI)

Primary Key (первичный ключ) – это условность реляционной модели, которая однозначно определяет каждую строку.
Primary Index – это условность Teradata, которая определяет распределение строк и доступ.
Хорошо спроектированная база данных содержит таблицы, в которых PI такой же как и PK, а также таблицы, в которых PI определен в столбцах, отличных от PK, и может влиять на пути доступа.
Читать дальше →

Как живется Data Mining компании: задачи и исследования

Время на прочтение4 мин
Количество просмотров17K
Привет, Хабр!

Наконец дошли руки Пришло время рассказать, чем занимается наша компания DM Labs в области анализа данных, помимо образовательной деятельности (о ней мы уже писали 1).

За прошлый год мы начали плотно сотрудничать с институтом роботехники fortiss при Техническом университете Мюнхена (TUM) (совместно учим роботов не убивать людей), выпустили прототип антифрод системы, участвовали в международных конференциях по машинному обучению, и, самое главное, смогли сформировать сильную команду аналитиков.

Теперь DM Labs объединяет в себе уже три направления: исследовательскую лабораторию, разработку готовых коммерческих решений и обучение. В сегодняшнем посте мы расскажем о них подробнее, подведем итоги прошедшего года и поделимся целями на будущее.
Читать дальше →

Что такое Teradata?

Время на прочтение5 мин
Количество просмотров89K
Предисловие: По работе мне пришлось изучать устройство базы данных Teradata, и оказалось, что в интернете почти нет информации, особенно на русском языке. Поэтому я решила собрать в кучу всю доступную информацию.

Стремительное увеличение объемов носителей информации и удешевление стоимости хранения данных привело к появлению методов, способных обеспечить более быстрый доступ к необходимым данным – индексы, хранение данных в отсортированном виде и т.п. Эти методы вполне успешно справляются со своей задачей, однако возрастающая конкуренция в мире заставляет искать новые, более быстрые, способы доступа к информации. «Кто владеет информацией, тот владеет миром». Основной интерес вызывают базы данных с традиционной реляционной моделью данных, отвечающие требованиям ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, надежность) и предназначенные для аналитики Больших Данных (Big Data).

Teradata – это параллельная реляционная СУБД, которая работает на операционных системах:

  • MP-RAS UNIX
  • Microsoft Windows 2000/2003 Server
  • SuSE Linux

Разнообразие поддерживаемых ОС — одна из причин, почему Teradata имеет открытую архитектуру.
Читать дальше →

Вклад авторов