Как стать автором
Поиск
Написать публикацию
Обновить
112.82

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Отчет о конференции «AI&BigData Lab»

Время на прочтение5 мин
Количество просмотров4.9K

12 апреля в Одессе впервые прошла конференция «Al&BigData Lab», посвященная искусственному интеллекту и большим данным. Если проблема искусственного интеллекта исследуется давно, то понятие «большие данные» появилось относительно недавно и до сегодняшнего дня остается довольно расплывчатым. Основной целью мероприятия виделось прежде всего обмен опытом среди разработчиков, объединение сообщества для более эффективного развития проектов по этой проблематике, а также создание и продвижение решений big data и искусственного интеллекта в Украине. Мы планировали заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе. Можно с уверенностью утверждать, что нам это удалось.
Читать дальше →

Как порталы открытых данных могут стимулировать рост экономики и инноваций

Время на прочтение5 мин
Количество просмотров8.6K


Органы государственного управления не только скрывают колоссальное количество информации, но еще и создают огромный объем данных. Собственно, они являются одними из крупнейших источников данных в мире, исходные материалы, которыми они располагают, могут стоить больших денег. Согласно составленному в 2011 году прогнозу компании McKinsey, к 2020 году потенциальная ценность Больших данных для европейского сектора может возрасти до двухсот пятидесяти миллиардов евро в год. Большая часть этих данных создается на бюджетные средства, следовательно, было бы логично предоставить их для общественного использования. Это позволило бы людям создавать новые инновационные сервисы, которые могли бы оказать существенное влияние на экономический рост.
Читать дальше →

Компания IBM представила новые серверы на основе процессоров Power8

Время на прочтение3 мин
Количество просмотров37K


На этой неделе представлены серверы на основе мощных процессоров нового поколения Power8. Проект осуществляется при поддержке консорциума OpenPower. В консорциум входят такие корпорации, как IBM, Google, Nvidia и другие (всего 25 компаний). Отметим, что будучи членом OpenPower Foundation, IBM в этот раз предоставила членам консорциума детальную информацию и спецификации своих новых процессоров. Обычно производители чипов и серверного оборудования не открывают подробную техническую документацию для сторонних производителей, в данном случае это сделано для того, чтобы конкуренты и партнеры IBM могли создавать новые производительные чипы и серверные платформы, используя идеи, предложенные корпорацией.

Стоит отметить, что на разработку процессоров Power8 ушло около 3 лет и 2,4 миллиарда долларов. Архитектура процессора (называемая симметричной суперскалярной архитектурой) объединяет до 12 ядер, работающих в режиме SMT8, общая площадь кристалла — 640 квадратных миллиметра. На кристалле умещается 4 миллиарда транзисторов. По сравнению с Power7 производительность нового поколения процессоров возросла примерно в 1,6 раза.

Читать дальше →

Тренды в онлайн образовании

Время на прочтение5 мин
Количество просмотров38K
В последнее время на слуху феномен «муков» (MOOC) – массовых открытых онлайн курсов. Платформ для них создано большое множество.

Есть мнение, что MOOC – это книги нового поколения (с видео, интерактивными задачами и социальной составляющей), которые одновременно «читают» десятки тысяч человек. Можно долго сравнивать «муки» с классическим образованием и спорить об их эффективности, но полезно воспринимать их как совершенно другой формат, очевидно со своими плюсами и минусами.

При этом у онлайн образования есть большое концептуальное отличие от оффлайн образования – его проще измерить. А всё, что можно измерить, можно улучшить.

В этом посте я поделюсь личными соображениями о том, куда движется онлайн образование на примере MOOC-ов, в том числе по мотивам посещения Coursera Partners' Conference, прошедшей 4 недели назад в Лондоне.
Читать дальше про данные, специализации, смешанное обучение и платформу образовательных приложений

Популярность средств веб-аналитики

Время на прочтение5 мин
Количество просмотров12K
Весной и осенью от имени IAB Russia выпускается карта экосистемы инернет-рекламы и мобильной рекламы. По состоянию на 22 апреля (в версии, приуроченной к РИФ 2014) вкладка веб-аналитики на ней выглядит так.



В нынешние времена то, что раньше было фактоидом (то есть событием, существующим только в мире медиа), уже выполняет функцию факта, вот как и эта карта русского digital. Хотя любому видно, что на схему, где столь мало места для логотипов, попали некоторые нераспространенные у нас средства веб-аналитики, и не попали системы, которые действительно заметны в Рунете.

Нам, Openstat, очень легко подкрепить интуитивное ощущение точными данными количества доменов с установленными системами веб-аналитики — фактами. У нас есть отчеты, полученные краулером Openstat, который обнаружил интернет-счетчики почти на 2 млн. сайтах.

С августа 2013 года краулер Openstat индексирует Рунет, Байнет, Уанет. Общий объем анализируемых данных 5,69 млн. хостов, но фактически краулер индексирует 4,6 млн. «живых» доменов Рунета, дающих ответ 200 Ok. На проиндексированных страницах выделено около одной тысячи сигнатур, соответствующих электронным способам оплаты, CMS, кодам рекламных сетей, средств веб-аналитики и т.д. Собирается также много технометрик, для которых также можно найти подходящие хабы на Хабре. В результате обработки подобных данных составляются различные отраслевые отчеты, с указанием, к примеру, числа сайтов с формами оплаты электронных денег, карт на сайт или интернет-счетчиков, которые стали темой этой записи.

Читать дальше →

Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа

Время на прочтение4 мин
Количество просмотров11K
«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
image
Читать дальше →

QlikView. Создадим свое первое приложение?…

Время на прочтение4 мин
Количество просмотров62K

В этой статье я хочу описать основы использования продукта QlikView от компании QlikTech, предназначенный для бизнес-аналитики (Business intelligence). Осторожно, много спойлеров.
Интересно? Добро пожаловать далее...

Большие данные и их хранение

Время на прочтение3 мин
Количество просмотров24K
Что такое большие данные? Ответ на этот вопрос зависит от того, кому и когда он задан. Возьмем обычного пользователя: пятнадцать лет назад объём данных в среднем домашнем компьютере исчислялся несколькими гигабайтами; теперь таких гигабайт сотни и даже тысячи. Более серьезный пример: датчики, установленные на Boeing Jet, генерируют примерно 10 ТБ данных с каждого двигателя всего лишь за 30 мин. То есть самолет, прилетевший из Москвы, скажем, в Новосибирск за 4 часа, даст нам примерно 160 ТБ данных. И это только с одного полета. На десерт можно подсчитать, сколько данных оставила человечеству прошедшая Олимпиада в Сочи: сотни спортсменов и данные о них, тысячи часов видео с соревнований, данные с камер слежения и т. д.



Большие данные – это одновременно большие проблемы и большие возможности. Рассмотрим несколько типичных проблем, связанных с «Big data».
Читать дальше →

Небольшой тест производительности Hadoop/Mapreduce

Время на прочтение2 мин
Количество просмотров4.5K
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Читать дальше →

MongoDB от теории к практике. Руководство по установке кластера mongoDB

Время на прочтение9 мин
Количество просмотров90K
     Доброго времени суток, уважаемые читатели. В этом посте я хотел бы описать несколько примеров развертки mongoDB, отличия между ними, принципы их работы. Однако больше всего хотелось бы поделиться с вами практическом опытом шардирования mongoDB. Если бы этот пост имел план, он бы выглядел скорее всего так:

  1. Вступление. Кратко о масштабировании
  2. Некоторые примеры развертки mongoDB и их описание
  3. Шардинг mongoDB

    Пункты 1 и 2 — теоретические, а номер 3 претендует на практическое руководство по поднятию кластера mongoDB и больше всего подойдет тем, кто столкнулся с этим в первый раз.
Читать дальше →

Кризис докатился до облаков!

Время на прочтение1 мин
Количество просмотров4.1K
Вышел новый отчет Forrester “A Better But Still Subpar Global Tech Market In 2014 and 2015”. В нем аналитики спешат сообщить, что рынок облачных вычислений в 2014 с трудом вырастет на 6%.
Читать дальше →

Big data: размер имеет значение?

Время на прочтение5 мин
Количество просмотров22K


Перед всеми веб-разработчиками встает задача индивидуальной выборки контента для пользователей. С ростом объема данных и увеличением их разнообразия обеспечение точности выборки становится все более важной задачей, оказывающей существенное влияние на привлекательность проекта в глазах пользователей. Если вышеописанное входит в сферу ваших интересов, то, возможно, данный пост натолкнет на какие-то новые идеи.

В каждой эпохе развития IT-индустрии существовали свои buzzwords — слова, которые у всех были на слуху, каждый знал, что за ними будущее, но лишь немногие знали, что действительно стоит за этим словом и как им правильно воспользоваться. В своем время баззвордами были и «водопад», и «XML», и «Scrum», и «веб-сервисы». Сегодня одним из основных претендентов на звание баззворда №1 является «big data». С помощью больших данных британские ученые диагностируют беременность по чеку из супермакета с точностью, близкой к ХГЧ-тесту. Крупные вендоры создают платформы для анализа больших данных, стоимость которых зашкаливает за миллионы долларов, и нет сомнений, что каждый пиксель в любом уважающем себя интернет-проекте будет строиться с учетом больших данных не позднее, чем к 2020 году.
Читать дальше →

Эффективность персональных рекомендаций: контекстный подход

Время на прочтение4 мин
Количество просмотров4.7K
Персональные рекомендации, как первый этап персонализации Интернета в целом, направлены на облегчение поиска информации. Но целесообразность их использования остается достаточно спорной.

У нас была возможность оценить эффективность наиболее популярных подходов к формированию рекомендаций пользователю. Наша система обработала информацию, полученную от нескольких сервисов (на правах партнеров), которые предлагали своим пользователям рекомендации информационного контента и рекламных баннеров и фиксировали реакцию пользователя на них (клик/отсутствие клика). Таким образом, для анализа мы получили 13,4 млн рекомендаций, сформированных на основе разных методов.
Читать дальше →

Ближайшие события

Такси в Нью-Йорке: визуализация перемещений за год

Время на прочтение1 мин
Количество просмотров21K


Наверное, в Нью-Йорке самый большой таксопарк в мире, или один из самых больших. За последний год, по данным MIT, 13500 такси перевезли более 17 миллионов пассажиров. Это, сами понимаете, очень много.

Благодаря современным технологиям специалистам удалось перевести все данные по перемещениям такси (использовались GPS-координаты) за последний год в графику. И результат получился достаточно интересным.

Читать дальше →

Hadoop, часть 3: Pig, обработка данных

Время на прочтение8 мин
Количество просмотров27K
des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать дальше →

Как обеспечить надежное хранение больших объемов данных в рамках умеренного бюджета

Время на прочтение9 мин
Количество просмотров24K
Добрый день, Хабрахабр! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis.

Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC  уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше.
Читать дальше →

Единый интерфейс управления рекламой на сайте

Время на прочтение4 мин
Количество просмотров19K
Монетизация собственного проекта – всегда вызов. Самый простой вариант: поставить на него тизерную рекламу или контекст, и наблюдать, сколько денег капает в карман. Но этот же вариант часто оказывается разочаровывающим – заработок не стоит усилий по его приобретению. Так ли плоха тизерная/контекстная реклама для монетизации сайтов? Скорее всего, вы просто не умеете её готовить.


В зависимости характера вашего трафика, его источников и состава, будет меняться прибыльность той или иной рекламной сети
Читать дальше →

Что такое на самом деле Big Data и чем они прекрасны. Лекция Андрея Себранта в Яндексе

Время на прочтение3 мин
Количество просмотров107K
Директор по маркетингу сервисов Яндекса Андрей Себрант рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.




Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Конспект лекции

Можем ли мы доверять решению компьютера, если не можем его проверить?

Время на прочтение1 мин
Количество просмотров20K
Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки?


Читать дальше →

Как сохранить олимпиаду?

Время на прочтение4 мин
Количество просмотров24K
Все средства массовой информации в последнее врем живут и дышат только Олимпиадой. Дабы не нарушать этот тренд и не упускать возможность поделиться экспертизой вопроса хранения данных на подобном событии, позволю себе немного порассуждать на тему взаимного проникновения технологий в спорт и спорта в технологии.
image
По некоторым данным олимпиада в Сочи стала большим событием не только для спортсменов и болельщиков, но и для российского IT сообщества, т.к. явила собой пример использования последних веяний IT индустрии для спортивных мероприятий.
Внутри всё устроено следующим образом:

Вклад авторов