Как стать автором
Поиск
Написать публикацию
Обновить
110.02

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Бизнес и Большие данные: лаборатория FABERNOVEL

Время на прочтение3 мин
Количество просмотров8.9K


Big Data — термин, который уже стал настоящим «базвордом», настолько популярна эта тема. Все больше людей и компаний из самых разных частей света и отраслей начинают понимать важность анализа данных. Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.
Читать дальше →

На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира

Время на прочтение3 мин
Количество просмотров5.4K
Большинство из нас будут смотреть футбольный ЧМ. И пусть эксперты говорят, что нашей сборной как всегда ничего не светит, красота мирового футбола захватит даже тех, кто и болельщиком себя не считает. А задумывались ли вы о красоте «совместного боления»? Ощутить себя на огромной всемирной трибуне, услышать что говорят и чувствуют болельщики из разных стран, увидеть матчи их глазами… Современные технологии обработки неструктурированных данных делают мечту болельщиков реальностью. Ежеминутно тысячи футбольных твитов, инстаграм-фоток и youtube-роликов создаются нами, болельщиками, уже сейчас, еще до начала ЧМ. Представляете, что будет во время матчей?! Осталось собрать «Всемирную Трибуну Болельщиков», что мы и сделаем из подручных материалов вместе, быстро, и под катом.

fans_2936689b.jpg
Читать дальше →

IBM Watson: где и как сейчас используются возможности суперкомпьютера?

Время на прочтение3 мин
Количество просмотров25K


На Хабре уже писали о том, что IBM Watson научился составлять рецепты, получил медицинское образование, и опробовал себя в роли продавца-консультанта. Само собой, все это были только тестовые проекты, которые служили как для обучения системы IBM Watson, так и для проверки возможностей суперкомпьютера.

И не так давно корпорация IBM открыла ресурсы суперкомпьютера Watson для сторонних разработчиков. В результате планировалось получить разнообразнейшие проекты, где в полной мере используются возможности IBM Watson. Некоторые идеи уже реализованы, и ниже приведены примеры наиболее интересных проектов.

Читать дальше →

Дайджест статей по анализу данных №2 (26.05.2014 — 8.06.2014)

Время на прочтение5 мин
Количество просмотров20K
Добрый день, уважаемые читатели.
Представляю вашему вниманию дайджест новостей и полезных материалов из мира анализа данных. Предыдущий дайджест пользовался большой популярностью и поэтому я решил сделать их регулярными. Периодичность таких подборок будет 1 раз в 2 недели.

В сегодняшней подборке вы узнаете что общего у статистики и науке об анализе данных, как можно выявить ложную корреляцию, а также какие алгоритмы правят современным миром. Помимо этого вы получите небольшие шпаргалки по методам машинного обучения и NoSQL базам данных, ну и еще много чего интересного.

Читать дальше →

Секретная служба США покупает софт, распознающий сарказм в соцсетях

Время на прочтение1 мин
Количество просмотров53K


В заказе, выложенном онлайн в понедельник, СС описывает потребность в сервисе, способном, среди прочего, анализировать большие объёмы данных из социальных медиа и визуализировать результат. Распознавание сарказма — только одна из многочисленных функций требуемого софта, но именно она привлекла внимание журналистов «Вашингтон пост», заголовки в котором звучат (в тестовых, надо полагать, целях): «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. (Ага, удачи)» и «Секретной службе нужен софт, который распознаёт сарказм в социальных сетях. Не сомневаемся, что это сработает».
Читать дальше →

Масштабируем Elasticsearch на примере кластера с индексами в несколько терабайт

Время на прочтение5 мин
Количество просмотров34K

Низкая скорость поисковых запросов


Работая над поисковым движком по социальной информации (ark.com), мы остановили свой выбор на Elasticsearch, так как по отзывам он был очень легок в настройке и использовании, имел отличные поисковые возможности и, в целом, выглядел как манна небесная. Так оно и было до тех пор, пока наш индекс не вырос до более-менее приличных размером ~ 1 миллиарда документов, размер с учетом реплик уже перевалил за 1,5 ТБ.

Даже банальный Term query мог занять десятки секунд. Документации по ES не так много, как хотелось бы, а гуглинг данного вопроса выдавал результаты 2х-летней давности по совсем не актуальным версиям нашего поискового движка (мы работаем с 0.90.13 — что тоже не достаточно старая вещь, но мы не можем позволить себе опустить весь кластер, обновить его, и запустить заново на текущий момент — только роллинг рестарты).

Низкая скорость индексации



Вторая проблема — мы индексируем больше документов в секунду (порядка 100к), чем Elasticsearch может обрабатывать. Тайм-ауты, огромная нагрузка на Write IO, очереди из процессов в 400 единиц. Все выглядит очень страшно, когда смотришь на это в Marvel.

Как решать эти проблемы — под катом
Читать дальше →

250 миллионов международных событий в одном месте

Время на прочтение1 мин
Количество просмотров12K

Исследователь Кавел Литару, из Джордтаунского университета, собрал каталог из 250 миллионов событий произошедших в мире с 1979, который ежедневно обновляется и доступен каждому желающему кто хочет его изучить.

Каждая запись набора имеет 58 атрибутов. А сам набор делится на 300 различных категорий. На настоящий момент каталог имеет объем 100 Гб, а хостером является Goolge.
Читать дальше →

Дайджест статей по анализу данных и big data

Время на прочтение2 мин
Количество просмотров33K
Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать дальше →

Hive vs Pig. На что мне столько ETL?

Время на прочтение8 мин
Количество просмотров20K
image

Лучше день потерять, но потом за пять минут долететь (с)



Привет коллеги.
Хочу поделиться с вами соображениями о том, чем отличаются фреймворки Hive и Pig, входящие в экосистему Hadoop. По сути, это два очень похожих продукта, цель у которых одна — взять на себя всю техническую реализацию MapReduce, предоставив взамен возможность описывать процесс обработки данных на более абстрактном уровне. В этой статье мы увидим как выглядят выборки в этих двух системах, и попытаемся понять, в каких случаях надо использовать то или иное решение.
Читать дальше →

Как мы запрос в 100 раз ускоряли, или не все хеш-функции одинаково плохи

Время на прочтение4 мин
Количество просмотров37K
Мы разрабатываем базу данных. Однажны к нам обратилась компания, которая столкнулась со следующей задачей:

Есть некоторое множество объектов, и некоторое множество тегов. Каждый объект может содержать несколько тегов. Какие-то теги очень редкие, а какие-то встречаются часто. Одному объекту один тег может быть сопоставлен несколько раз.
Новые объекты, теги и связи между ними непрерывно добавляются.
Задача — очень быстро отвечать на вопросы вида: «сколько есть объектов, у которых есть тег А или B, но нету тега С» и похожие. На такие запросы хотелось бы отвечать за десятые доли секунды, при этом не останавливая загрузку данных.

Мы получили от них их данные вплоть до сегодняшнего дня, развернули тестовый кластер из четырех машин, и начали думать, как правильно распределить данные и как правильно представить задачу в виде SQL-запроса, чтобы получить максимальную производительность. В итоге решили, что запрос может иметь вид:

SELECT 
    COUNT(*) 
FROM (
    SELECT 
        object_id, 
        (MAX(tag == A) OR MAX(tag == B)) AND MIN(tag != C) AS good
    FROM tags
    WHERE tag IN (A, B, C)
    GROUP BY object_id
) WHERE good == 1;


Чтобы такой запрос выполнялся быстро, мы разбили данные между серверами кластера по object_id, а внутри каждого сервера отсортировали их по тегам. Таким образом сервер, выполняющий запрос, может отправить запрос без изменений на все сервера с данными, а затем просто сложить их результаты. На каждом сервере с данными для выполнения запроса достаточно найти строки для тегов A, B и C (а так как данные по тегу отсортированы, это быстрая операция), после чего выполнить запрос за один проход по этим строкам. Худший тег имеет несколько десятков миллионов объектов, несколько десятков миллионов строк обработать за десятые доли секунды видится возможным.
Стоит отметить, что подзапрос содержит GROUP BY object_id. GROUP BY в данной ситуации можно выполнить несколькими способами, например, если данные после тега отсортированы по object_id, то можно выполнить что-то похожее на merge sort. В данной ситуации, однако, мы данные по object_id не отсортировали, и оптимизатор разумно решил, что для выполнения GROUP BY надо построить хеш-таблицу.

Мы загрузили все данные в кластер, и запустили запрос. Запрос занял 25 секунд.
Читать дальше →

Видеозаписи докладов конференции AI&BigData Lab

Время на прочтение2 мин
Количество просмотров10K


Команда проекта GeeksLab 12 апреля 2014 года в Одессе провела конференцию «Al&BigData Lab», которая была посвящена большим данным и искусственному интеллекту.

Презентации и видеозаписи докладов под катом.
Читать дальше →

Dell Fluid Cache for SAN: когда данные всегда под рукой

Время на прочтение6 мин
Количество просмотров2.8K
Предпосылки возникновения технологии.

Майер Амшель, основатель известной династии Ротшильдов, в кодексе для своих потомков упомянул, что тот кто владеет информацией, владеет миром. Столь важную для любой компании информацию мы черпаем из данных, которые сами по себе, находясь внутри БД не несут нам никакой пользы. Для этого данные нужно обработать, то есть предоставить приложению, например, из области бизнес-аналитики (Business Intelligence). В предыдущие десятилетия, когда объём данных, частота их изменений и количество обращений к ним оставались достаточно низкими, мы могли позволить себе хранить их на медленных носителях и волновались в основном за стоимость единицы хранения (доллар за мегабайт, гигабайт и так далее). Сегодня, в эпоху Big Data, когда успешными становятся те компании, которые быстрее других реагируют на рыночные изменения, важным становится не стоимость за гигабайт, а стоимость за быструю транзакцию или за потребителя этих быстрых транзакций.
Читать дальше →

Долой оковы MongoDB

Время на прочтение6 мин
Количество просмотров30K
Многие из нас в свое время бросились с энтузиазмом осваивать MongoDB, действительно красота — удобный JSON формат, гибкая схема (точнее полное ее отсутствие), от установки системы до первого использования проходят буквально минуты. Но через некоторое время, уже когда Mongo надежно «зашита» в наш проект наступает разочарование. Простейшие запросы требуют постоянного тыкания в документацию, чуть более сложные способны убить почти целый день рабочего времени, а уж если понадобится join разных коллекций — то увы…

И вот уже кто-то возвращается к Постгресу с его частичной поддержкой JSON…

Но, к счастью, уже куется, уже спешит к нам полноценная замена Mongo, полноценная полу-структурированная Big Data СУБД AsterixDB. Этот проект возглавляет профессор UCI Michael Carey, ученик легендарного пионера СУБД Майкла Стоунбрейкера.

Проект стартовал просто как исследовательское начинание в области Big Data и изначально ориентировался на создание общего стэка для MapReduce и SQL. Но, буквально несколько лет назад, было принято решение построить Big Data JSON СУБД. По словам Майкла Кери, «AsterixDB is Mongo done right.» В чем же основные фишки AsterixDB?
Читать дальше →

Ближайшие события

Отчет о конференции «AI&BigData Lab»

Время на прочтение5 мин
Количество просмотров4.9K

12 апреля в Одессе впервые прошла конференция «Al&BigData Lab», посвященная искусственному интеллекту и большим данным. Если проблема искусственного интеллекта исследуется давно, то понятие «большие данные» появилось относительно недавно и до сегодняшнего дня остается довольно расплывчатым. Основной целью мероприятия виделось прежде всего обмен опытом среди разработчиков, объединение сообщества для более эффективного развития проектов по этой проблематике, а также создание и продвижение решений big data и искусственного интеллекта в Украине. Мы планировали заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе. Можно с уверенностью утверждать, что нам это удалось.
Читать дальше →

Как порталы открытых данных могут стимулировать рост экономики и инноваций

Время на прочтение5 мин
Количество просмотров8.6K


Органы государственного управления не только скрывают колоссальное количество информации, но еще и создают огромный объем данных. Собственно, они являются одними из крупнейших источников данных в мире, исходные материалы, которыми они располагают, могут стоить больших денег. Согласно составленному в 2011 году прогнозу компании McKinsey, к 2020 году потенциальная ценность Больших данных для европейского сектора может возрасти до двухсот пятидесяти миллиардов евро в год. Большая часть этих данных создается на бюджетные средства, следовательно, было бы логично предоставить их для общественного использования. Это позволило бы людям создавать новые инновационные сервисы, которые могли бы оказать существенное влияние на экономический рост.
Читать дальше →

Компания IBM представила новые серверы на основе процессоров Power8

Время на прочтение3 мин
Количество просмотров37K


На этой неделе представлены серверы на основе мощных процессоров нового поколения Power8. Проект осуществляется при поддержке консорциума OpenPower. В консорциум входят такие корпорации, как IBM, Google, Nvidia и другие (всего 25 компаний). Отметим, что будучи членом OpenPower Foundation, IBM в этот раз предоставила членам консорциума детальную информацию и спецификации своих новых процессоров. Обычно производители чипов и серверного оборудования не открывают подробную техническую документацию для сторонних производителей, в данном случае это сделано для того, чтобы конкуренты и партнеры IBM могли создавать новые производительные чипы и серверные платформы, используя идеи, предложенные корпорацией.

Стоит отметить, что на разработку процессоров Power8 ушло около 3 лет и 2,4 миллиарда долларов. Архитектура процессора (называемая симметричной суперскалярной архитектурой) объединяет до 12 ядер, работающих в режиме SMT8, общая площадь кристалла — 640 квадратных миллиметра. На кристалле умещается 4 миллиарда транзисторов. По сравнению с Power7 производительность нового поколения процессоров возросла примерно в 1,6 раза.

Читать дальше →

Тренды в онлайн образовании

Время на прочтение5 мин
Количество просмотров38K
В последнее время на слуху феномен «муков» (MOOC) – массовых открытых онлайн курсов. Платформ для них создано большое множество.

Есть мнение, что MOOC – это книги нового поколения (с видео, интерактивными задачами и социальной составляющей), которые одновременно «читают» десятки тысяч человек. Можно долго сравнивать «муки» с классическим образованием и спорить об их эффективности, но полезно воспринимать их как совершенно другой формат, очевидно со своими плюсами и минусами.

При этом у онлайн образования есть большое концептуальное отличие от оффлайн образования – его проще измерить. А всё, что можно измерить, можно улучшить.

В этом посте я поделюсь личными соображениями о том, куда движется онлайн образование на примере MOOC-ов, в том числе по мотивам посещения Coursera Partners' Conference, прошедшей 4 недели назад в Лондоне.
Читать дальше про данные, специализации, смешанное обучение и платформу образовательных приложений

Популярность средств веб-аналитики

Время на прочтение5 мин
Количество просмотров12K
Весной и осенью от имени IAB Russia выпускается карта экосистемы инернет-рекламы и мобильной рекламы. По состоянию на 22 апреля (в версии, приуроченной к РИФ 2014) вкладка веб-аналитики на ней выглядит так.



В нынешние времена то, что раньше было фактоидом (то есть событием, существующим только в мире медиа), уже выполняет функцию факта, вот как и эта карта русского digital. Хотя любому видно, что на схему, где столь мало места для логотипов, попали некоторые нераспространенные у нас средства веб-аналитики, и не попали системы, которые действительно заметны в Рунете.

Нам, Openstat, очень легко подкрепить интуитивное ощущение точными данными количества доменов с установленными системами веб-аналитики — фактами. У нас есть отчеты, полученные краулером Openstat, который обнаружил интернет-счетчики почти на 2 млн. сайтах.

С августа 2013 года краулер Openstat индексирует Рунет, Байнет, Уанет. Общий объем анализируемых данных 5,69 млн. хостов, но фактически краулер индексирует 4,6 млн. «живых» доменов Рунета, дающих ответ 200 Ok. На проиндексированных страницах выделено около одной тысячи сигнатур, соответствующих электронным способам оплаты, CMS, кодам рекламных сетей, средств веб-аналитики и т.д. Собирается также много технометрик, для которых также можно найти подходящие хабы на Хабре. В результате обработки подобных данных составляются различные отраслевые отчеты, с указанием, к примеру, числа сайтов с формами оплаты электронных денег, карт на сайт или интернет-счетчиков, которые стали темой этой записи.

Читать дальше →

Data Mining в Big Data: рейтинг цитируемости СМИ в социальных медиа

Время на прочтение4 мин
Количество просмотров11K
«Какой же аналитик не любит Big Data!» — так можно перефразировать популярную пословицу про быструю езду. 650 миллионов сообщений соцмедиа от 35 миллионов авторов, 358 миллионов ссылок, из которых 110 миллионов «коротких» — такой объем данных был проанализирован за март 2014г, чтобы составить рейтинг цитируемости СМИ.
В данном посте мы поговорим о методолого-технологических аспектах, а также предложим обсудить идеи «углубленного бурения» Data Mining соцмедиа. Заинтересовавшихся приглашаем под кат.
image
Читать дальше →

QlikView. Создадим свое первое приложение?…

Время на прочтение4 мин
Количество просмотров62K

В этой статье я хочу описать основы использования продукта QlikView от компании QlikTech, предназначенный для бизнес-аналитики (Business intelligence). Осторожно, много спойлеров.
Интересно? Добро пожаловать далее...

Вклад авторов