Как стать автором
Поиск
Написать публикацию
Обновить
106.18

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

«Всезнайки» от бизнеса – как большие данные меняют облик компаний

Время на прочтение5 мин
Количество просмотров14K
image

Помните, в школе всегда были этакие «всезнайки»? Каким-то образом, вне зависимости от предмета, им удавалось увязывать в голове разрозненные блоки информации и приходить к пониманию вопроса.

Я привел этот пример потому, что, по-моему, он хорошо отражает будущее компаний: им приходится становиться «всезнайками» от бизнеса. Сейчас, благодаря Hadoop и другим технологиям так называемых Больших данных, компании могут рассматривать до недавнего времени разрозненную информацию как единое целое. Вообразите, что это может означать. Авиалинии будут знать, когда ценный для них клиент сталкивался с неприятностями в момент вылета, и, благодаря этому, постараются улучшить обслуживание во время обратного полета. Медики смогут увязывать разрозненные виды информации, такие как результаты МРТ, показатели давления, данные о фибрилляции предсердий для предсказания возможности инфаркта или инсульта.

Речь идет не только об объемах данных – а именно это приходит в голову большинству при упоминании о Больших данных. Напротив, главное в том, что между этими данными – вне зависимости от их типа и источника – скрыты крайне важные взаимосвязи, как, например, между информацией из колл-центра, данными по пользованию веб-сайтом и показателями продаж. Для меня разница в этих подходах существенна. Проще говоря, размер тут не имеет значения.
Читать дальше →

Конкурс Apps4Russia 2014. Открытые данные и «понятность» языка, денег и правил

Время на прочтение4 мин
Количество просмотров2.4K
Так неслучайно сложилось что вот уже 4-й раз, начиная с 2011 года, мы проводим конкурс приложений Apps4Russia.
Мы — это некоммерческое партнерство «Информационная культура» созданное как раз ради этого конкурса и занимающееся продвижением открытых данных, краудсорсинга и открытостью государства как такового.


Краткая история


В 2011 году, насмотревшись на то как в мире возникают один за другим соревнования для разработчиков такие как Code4America, Apps4Berlin, Apps4Finland и многие другие — меня посетила навязчивая мысль что конкурс был бы идеальным способов продвижения темы открытых данных которой я занимался тогда и занимаюсь по сей день. С группой неравнодушных коллег мы на собственные средства провели первое соревнование с одной номинацией, а со второго раза начали привлекать к соревнованию деньги спонсоров и выходить на всё большие масштабы.

И вот, последние 3 года мы проводили соревнование именно на открытых данных. Данных опубликованных государством, бизнесом, в виде больших общественных проектов и даже нами самими.

А в этом году, мы решили немного изменить “правила игры” и основной упор конкурса делается на понятные приложения — то есть на те приложения, которые помогут гражданам сделать их жизнь более прозрачной и понятной.

Почему понятность? Да потому что весь опыт работы с открытостью государства, данных и всего что с этим связано показывает что это бесполезно если люди не чувствуют в этом практической пользы. Но практической пользы не той которую пытаются создавать госорганы делая мобильные приложения или веб-проекты самостоятельно, а те которые разработчики могут сделать сами.

Номинации


Всего у нас 4 номинации.
Читать дальше →

Как открытые данные помогут предсказать преступления

Время на прочтение3 мин
Количество просмотров12K
Привет, Хабр!

Что дают человечеству открытые данные? В этом году они помогли воссоздать Данию в Майнкрафте – достижение интересное, но вряд ли значимое для простого обывателя. Данные позволяют сравнить города по определенным параметрам, узнать мнения людей о них (выгрузив те же твиты с геолокацией), узнать о передвижении людей (данные с навигационных сервисов), после чего их можно использовать для улучшения жизни – например, для снижения нагрузки на дороги.

Интересное исследование я вчера услышал на одном мероприятии: проанализировав передвижение автомобилей по Москве, команда разработчиков платформы для такого анализа выяснила, что новые шоссе в этом городе не решат проблему пробок. Потому как по городу люди движутся абсолютно хаотично, так что для устранения проблемы необходимо строить «капиллярные» сети дорог. С другой стороны, в Московской области все передвигаются именно по основным дорогам.

Это лишь один из способов практического использования открытых данных. Можно долго говорить еще и о том, как эти данные помогут продавать что-либо, но меня интересует вопрос чуть более гуманитарный – вопрос улучшения жизни, безопасности и так далее.



Читать дальше →

Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014)

Время на прочтение4 мин
Количество просмотров13K

Представляю вашему вниманию первый выпуск обзора наиболее интересных материалов по высокой производительности. Когда я готовил очередной выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению, то понял, что выделяется вполне себе самодостаточная тематика собранных материалов. Надеюсь, что данный тип обзоров будет тоже полезен и интересен. Буду стараться расширять список ресурсов за которыми слежу при подготовке данных обзоров.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №14 (15 — 21 сентября 2014)

Время на прочтение6 мин
Количество просмотров10K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Хочу также обратить внимание, что я выпустил первый дайджест по теме высокой производительности и Data Enginering: Обзор наиболее интересных материалов по высокой производительности (15 — 21 сентября 2014). Думаю, что кого-то он тоже может заинтересовать.
Читать дальше →

Приглашаем на HadoopKitchen

Время на прочтение4 мин
Количество просмотров7.2K


Спешим сообщить вам о нашей новой инициативе, которая будет интересна как программистам, так и ряду других IT-специалистов: 27 сентября, в следующую субботу, в московском офисе Mail.Ru Group состоится первая встреча HadoopKitchen. Почему именно Hadoop и чем эта встреча может быть интересна непрограммистам?

  • Hadoop является центром настоящей экосистемы, с ним связаны многочисленные проекты и технологии.
  • Многие компании целиком полагаются на коммерческие дистрибутивы Hadoop.
  • Hadoop входит в продуктовые линейки почти всех крупных поставщиков информационных технологий, что говорит о его востребованности и популярности.

Программа первой Hadoop-встречи будет очень насыщенной, выступят аж четыре докладчика. Все они замечательные специалисты с большим опытом, которым хотят поделиться с аудиторией. Под катом читайте программу мероприятия и анонсы докладов.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №13 (8 — 14 сентября 2014)

Время на прочтение5 мин
Количество просмотров14K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных примеров с использованием языков программирования R и Python. Также есть несколько интересных статей, посвященных соревнованиям по машинному обучению. Достаточно много материалов, которые будут интересны новичкам в теме анализа данных и машинного обучения. Традиционно, некоторое количество материалов посвящено теме Data Engineering.

Читать дальше →

Hadoop, java MapReduce: запуск из произвольного web/EE контейнера

Время на прочтение2 мин
Количество просмотров5.4K
В интернете есть довольно большое количество примеров о том, как запустить MapReduce из стенделон приложения на джаве.
Но начинающему работать с индийским слоником может быть сложно понять, как запустить джобу из какого-нибудь java контейнера.
кто еще не знает как - приглашаю под кат

Hazelcast 3.3 — что нового?

Время на прочтение1 мин
Количество просмотров9.8K
Позавчера, 9 сентября, вышла новая версия Hazelcast — 3.3.

Кратко: Heartbeat для клиентов, кластеризация сессий для Tomcat 6 и 7, новая Replicated Map, улучшенная WAN Replication, улучшенный Data Aggregation, функциональность EvictAll и LoadAll для IMap.

Подробнее ...

Новый сервис от IBM Watson поможет ученым работать более эффективно

Время на прочтение5 мин
Количество просмотров8.1K


Компания IBM представила новое дополнение к когнитивным возможностям IBM Watson, которое позволяет исследователям ускорить темпы научных исследований путем нахождения ранее неизведанных связей при анализе больших данных.

Новый сервис IBM Watson Discovery Advisor доступен в облачной среде и создан для того, чтобы помогать ученым в работе над исследованиями. Сервис позволяет сократить время, необходимое для подтверждения гипотез и формулирования заключений, с месяцев до дней и с дней до считанных часов, открывая новые возможности для исследователей и разработчиков.

Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №12 (1 — 8 сентября 2014)

Время на прочтение6 мин
Количество просмотров7.2K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. Данный выпуск получился достаточно объемным, в нем есть достаточно много материалов по Data Engineering. Все больше материалов появляется с конференции KDD 2014. Как обычно есть статьи про различные соревнования по машинному обучению, в том числе есть статьи о недавно прошедшем соревновании «ImageNet Large Scale Visual Recognition Challenge (ILSVRC)». Также есть достаточно много примеров кода на языках программирования R и Python. Есть упоминание о, как мне кажется, очень любопытном онлайн-курсе «Introduction to Computational Finance and Financial Econometrics».

Читать дальше →

Oracle vs Teradata vs Hadoop

Время на прочтение4 мин
Количество просмотров24K
Эта статья нацелена на Большие и Очень большие Хранилища Данных, но для ровной картины в классификации немного упомянуты и маленькие.

Статья написана для специалистов, которые ценят главный критерий работы с базами данными — скорость. Речь пойдет о системах, нацеленных на грубый full scan (ораклисты уже напряглись, а терадатовцы радуются).

Давайте рассмотрим, под какой объем данных и работ лучше всего подходит Oracle или Hadoop/NoSQL.
Читать дальше →

Несколько слов о «линейной» регрессии

Время на прочтение5 мин
Количество просмотров55K
Иногда так бывает: задачу можно решить чуть ли не арифметически, а на ум прежде всего приходят всякие интегралы Лебега и функции Бесселя. Вот начинаешь обучать нейронную сеть, потом добавляешь еще парочку скрытых слоев, экспериментируешь с количеством нейронов, функциями активации, потом вспоминаешь о SVM и Random Forest и начинаешь все сначала. И все же, несмотря на прямо таки изобилие занимательных статистических методов обучения, линейная регрессия остается одним из популярных инструментов. И для этого есть свои предпосылки, не последнее месте среди которых занимает интуитивность в интерпретации модели.
Читать дальше →

Ближайшие события

Обзор наиболее интересных материалов по анализу данных и машинному обучению №11 (25 августа — 1 сентября 2014)

Время на прочтение5 мин
Количество просмотров9.8K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много разноплановой информации. Есть много статей, посвященных теме Data Engineering. Есть материалы для новичков и несколько видеолекций. Как обычно упоминаются соревнования по машинному обучению на Kaggle. Интересная статья про стартапы в области Data Science. Любопытная статья про улучшение игрового AI при помощи использования машинного обучения.

Читать дальше →

Поговорим за Hadoop

Время на прочтение10 мин
Количество просмотров63K
image

Введение

Как человеку с не очень устойчивой психикой, мне достаточно одного взгляда на картинку, подобную этой, для начала панической атаки. Но я решил, что страдать буду только сам. Цель статьи — сделать так, чтобы Hadoop выглядел не таким страшным.

Что будет в этой статье:

  • Разберем, из чего состоит фреймворк и зачем он нужен;
  • разберем вопрос безболезненного развертывания кластера;
  • посмотрим на конкретный пример;
  • немного коснемся новых фич Hadoop 2 (Namenode Federation, Map/Reduce v2).


Чего не будет в этой статье:

  • вообще статья обзорная, поэтому без сложностей;
  • не будем лезть в тонкости экосистемы;
  • не будем зарываться глубоко в дебри API;
  • не будем рассматривать все околоdevops-задачи.

Читать дальше →

Поисковая система в АНБ содержит более 850 млрд записей

Время на прочтение2 мин
Количество просмотров30K
В рамках проекта The Intercept опубликована очередная порция документов, переданных Эдвардом Сноуденом в СМИ. Эти документы описывают поисковую систему ICReach, работающую в АНБ.



Поисковая система, как сказано в презентации, снабжена простым интерфейсом, похожим на Google. Она осуществляет полнотекстовый поиск по более 850 млрд записям с конфиденциальной информацией: это метаданные телефонных разговоров (вызываемые номера, время и место звонка), электронной почты (имена отправителя и получателя, время отправки) и интернет-чатов, факсов, координаты сотовых телефонов и др. (всего 30 видов данных).
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №10 (18 — 25 августа 2014)

Время на прочтение5 мин
Количество просмотров9.4K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных материалов для новичков. Присутствует пара интересных видеоматериалов. Есть материалы по теме Data Engineering. Как обычно некоторые количество статей посвящено примерам кода, связанного с анализом данных и машинным обучением. И уже традиционно несколько статей посвящено теме участия в соревнованиях по машинному обучению.

Читать дальше →

Как проиндексировать логи бизнес-приложений в Hadoop (SolrCloud)

Время на прочтение12 мин
Количество просмотров7.1K

Введение


У одного из наших клиентов возникла задача вынести логи из большинства корпоративных приложений и их баз данных «куда-нибудь» — уж больно с ними много возни: растут как на дрожжах, чисти их периодически, а к некоторым еще и доступ должен быть обеспечен в течение многих лет, да еще и анализ хочется проводить системным образом. Конечно же, вынести логи – это не первичная цель, и по совокупности требований мы выбрали Hadoop, версию от Cloudera (CDH 5).

Требования указывали, что решение, помимо прочего, должно предоставлять возможность поиска и просмотра списка событий (из логов) по заданным критериям, причем желательно быстрого. Причем некоторые приложения также должны быть переделаны, чтобы формы просмотра логов стали использовать Hadoop вместо своих баз данных.

Как одно из решений — использовать поисковый модуль SolrCloud, который входит в комплект Hadoop от Cloudera. В Cloudera «из коробки» входят тулзы для выгрузки данных из баз данных приложений и их индексации пачкой (не построчно). Однако такой способ оказался хоть и рабочим, но более трудоемким и непредсказуемым в настройке, чем, скажем, если бы мы использовали Impala для выборки данных. Поэтому я решил поделиться как мы это делали, в надежде сэкономить время тем, кто столкнется с похожей задачей.

Эта статья описывает детали настройки, а также встреченные в процессе работы особенности.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №9 (11 — 18 августа 2014)

Время на прочтение5 мин
Количество просмотров10K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения. В данном выпуске достаточно много интересных видеоматериалов. Некоторые количество материалов посвящено теме Data Engineering. В данном выпуске достаточно много практических примеров кода на языках программирования R и Python. Как обычно много материалов посвящено алгоритмам машинного обучения.

Читать дальше →

Роза кишечных бактерий

Время на прочтение5 мин
Количество просмотров17K
Научные задачи, связанные с обработкой и визуализацией сложных данных, — одни из самых нетривиальных и интересных. В научных экспериментах накапливаются огромные объёмы данных с разнообразными измерения и параметрами, характерными для конкретной области знаний, зачастую взаимосвязанными. При этом удобный и наглядный способ интерпретации этих данных быстро приводит к результату и наглядно демострирует его заинтересованным лицам — а там и до важного открытия рукой подать. Вспомните таблицу Менделеева, диаграммы Фейнмана, спектральные серии веществ, геномные схемы ДНК, карты реликтового излучения.

Я расскажу о научной задаче, с которой нам в Лаборатории данных посчастливилось работать. Мы придумали и реализовали инструмент для сравнения филогенетического расстояния образцов микробиоты и назвали его розой кишечных бактерий:



Читать дальше →

Вклад авторов