Обновить
88.1

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Что такое Business Intelligence

Время на прочтение4 мин
Количество просмотров133K
Существует огромное количество терминов: аналитика, data mining, анализ данных, business intelligence и разница между ними не всегда столь очевидна даже для людей, которые с этим связаны. Сегодня мы расскажем о том, что же такое Business Intelligence (BI) доступным и понятным языком. Тема безусловна огромна и её не покрыть лишь одной короткой статьей, но наша задача — помочь сделать первый шаг и заинтересовать читателя темой. Заинтересованный же читатель также найдет исчерпывающий список для дальнейших шагов.

Структура статьи
  1. Зачем всё это нужно: из жизни аналитика
  2. В чем задача: проблема на уровне компании
  3. Обобщаем задачу: всё это звенья одной цепи
  4. Большая инфографика
  5. С чем можно поэкспериментировать
  6. Что почитать? Must read по Business Intelligence


Зачем всё это нужно: из жизни аналитика

(кликабельно)
Читать дальше →

Сериал: Big Data — как мечта. 4-я серия. Революция мозгов

Время на прочтение5 мин
Количество просмотров10K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A.

В мире есть множество самых великих книг, которые пережили столетия и даже тысячелетия. Заложенные в этих книгах знания — универсальны. Китайские военные стратегмы, Библия, индийская Махабхарата содержат в том числе шаблоны и каноны, которые могут быть применимы к взаимоотношениям людей и в I, и в XI, и в XXI с XXXI веках. Но промышленной революции XIX-XXI веков (паровозы-космос-компьютеры-интернет) нужна была своя философия.
Читать дальше →

IBM анонсирует аналитические инструменты для работы с базами данных Twitter

Время на прочтение5 мин
Количество просмотров5.1K


IBM и Twitter представили первые в отрасли облачные сервисы, которые позволяют бизнес-профессионалам и разработчикам извлекать ценную информацию из данных Twitter. В процессе реализации проекта IBM и Twitter тесно сотрудничали с более чем 100 клиентами, и уже сегодня предоставляют корпоративным заказчикам возможность применять социальные данные для принятия бизнес-решений.

Twitter не похож ни на один другой источник данных в мире, представляя собой глобальную информационную платформу для ведения диалогов на самые разнообразные темы в режиме реального времени. Для того чтобы использовать Twitter-данные с целью принятия важных решений, бизнес-профессионалы должны делать нечто большее, чем проводить анализ общественного мнения – они должны отличать сигнал от шума. IBM помогает достичь этого, обогащая и анализируя данные Twitter в сочетании с миллионами источников данных из других информационных потоков, таких как прогнозы погоды, продажи, учет товарных запасов. Такой подход позволяет находить важные связи, которые помогают принимать более взвешенные решения.
Читать дальше →

RapidMiner – Data Mining и BigData у вас дома, быстро и без подготовки (почти)

Время на прочтение8 мин
Количество просмотров47K


Пока маркетологи обмазываются BigData и бегают в таком виде на пресс-конференциях, я предлагаю просто скачать бесплатный инструмент с тестовыми наборами данных, шаблонами процессов и начать работать.

Закачка, установка и получение первых результатов — минут 20 максимум.

Я говорю про RapidMiner — опенсорсную среду, которая при всей своей бесплатности некисло «уделывает» коммерческих конкурентов. Правда, сразу скажу, что разработчики всё равно её продают, а в опенсорс отдают только предпоследние версии. Дома можно попробовать потому, что есть вообще бесплатные сборки со всей-всей логикой с всего лишь двумя ограничениями — максимальный объем используемой памяти 1 Гб и работа только с обычными файлами (csv, xls и т.п.) в качестве источника данных. Естественно, в малом бизнесе это тоже не проблема.
Читать дальше →

Стоит ли и дальше использовать термин Big Data?

Время на прочтение2 мин
Количество просмотров10K


Термин «Big Data» стал очень популярным за последние несколько лет. Сейчас чуть не на каждом сайте обсуждается Big Data и все, что с этим связано. Конечно, данные, которые собираются и анализируются для нужд организаций или общества — все это изменяет наши жизни, улучшает их.
Читать дальше →

Снифаем выходную ноду Tor’а и анализируем получившийся контент

Время на прочтение12 мин
Количество просмотров96K


Концепция «сеть поверх сети» появилась далеко не вчера. Еще в середине прошлого десятилетия «Хакер» писал о луковой и чесночной маршрутизации в лице Tor и I2P и даже публиковал обзоры соответствующего софта в рубрике «Шароwarez», но настоящий интерес к ним в обществе появился на волне известных инфоповодов и громких разоблачений последнего времени. Что же представляют собой даркнеты? Кто там живет? Чем они интересуются, чем дышат, что покупают и что продают? Попробуем разобраться с этим по-хакерски: с помощью снифера и прямого погружения.
Читать дальше →

Нейропластичность в искусственных нейронных сетях

Время на прочтение17 мин
Количество просмотров53K
Привет, Хабр, давно не виделись. В этом посте мне хотелось бы рассказать о таком относительно новом понятии в машинном обучении, как transfer learning. Так как я не нашел какого-либо устоявшегося перевода этого термина, то и в названии поста фигурирует хоть и другой, но близкий по смыслу термин, который как бы является биологической предпосылкой к формализации теории передачи знаний от одной модели к другой. Итак, план такой: для начала рассмотрим биологические предпосылки; после коснемся отличия transfer learning от очень похожей идеи предобучения глубокой нейронной сети; а в конце обсудим реальную задачу семантического хеширования изображений. Для этого мы не будем скромничать и возьмем глубокую (19 слоев) сверточную нейросеть победителей конкурса imagenet 2014 года в разделе «локализация и классификация» (Visual Geometry Group, University of Oxford), сделаем ей небольшую трепанацию, извлечем часть слоев и используем их в своих целях. Поехали.
Читать дальше →

Техносфере — 1 год

Время на прочтение5 мин
Количество просмотров16K


Многие из вас, возможно, уже слышали или читали в нашем блоге о Технопарке, совместном образовательном проекте Mail.Ru Group и МГТУ им. Н. Э. Баумана. Однако постойте, есть еще и Техносфера. Что это, кто это и почему эти два проекта так похожи, и чем они различаются, я расскажу в этом посте.

В феврале исполнился ровно год с момента запуска Техносферы. Это совместный образовательный проект Mail.Ru Group и факультета вычислительной математики и кибернетики МГУ имени М. В. Ломоносова. Обучением студентов занимаются исключительно сотрудники Mail.Ru Group. Их цель — подготовить квалифицированных специалистов в области анализа больших данных (Big Data). Первые десять выпускников совсем недавно получили дипломы из рук Дмитрия Гришина, CEO Mail.Ru Group, и уже приступили к работе.
Читать дальше →

Deep Learning, NLP, and Representations

Время на прочтение13 мин
Количество просмотров63K
Предлагаю читателям «Хабрахабра» перевод поста «Deep Learning, NLP, and Representations» крутого Кристофера Олаха. Иллюстрации оттуда же.

В последние годы методы, использующие глубокое обучение нейросетей (deep neural networks), заняли ведущее положение в распознавании образов. Благодаря им планка для качества методов компьютерного зрения значительно поднялась. В ту же сторону движется и распознавание речи.

Результаты результатами, но почему они так круто решают задачи?



В посте освещено несколько впечатляющих результатов применения глубоких нейронных сетей в обработке естественного языка (Natural Language Processing; NLP). Таким образом я надеюсь доходчиво изложить один из ответов на вопрос, почему глубокие нейросети работают.
Вглубь по кроличьей норе

Корпоративный поиск

Время на прочтение3 мин
Количество просмотров4.7K
На сегодняшний вряд ли найдется компания, не использующая ИТ технологии в процессе своей деятельности. Взрывной рост объемов корпоративной информации, хранящейся на серверах, в некотором смысле определил развитие рынка систем хранения данных и в тоже время создал новые ниши. Одной из таких ниш является корпоративный поиск. Все чаще компании приходят к пониманию того, что в рамках их инфраструктуры необходима интуитивно понятная и привычная строка поиска.

image

Корпоративный поиск – это инструмент для бизнеса, для сотрудников предприятия – конечных пользователей, не связанных с ИТ. В первую очередь это поиск информации на файловых серверах, где по сути нет никакой структуризации, а также поиск на таких платформах как Exchange и SharePoint. Таким образом поисковый инструмент с одной стороны должен быть простым в использовании и заточенным под корпоративную специфику, а с другой стороны должен без ущерба интегрироваться с существующими системами и регламентами, уметь индексировать множество современных форматов данных и удовлетворять многим другим техническим требованиям.

Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №39 (9 — 15 марта 2015)

Время на прочтение3 мин
Количество просмотров26K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Магнитная лента — старый конь борозды не портит

Время на прочтение6 мин
Количество просмотров53K
Каждый раз когда мы встречаем словосочетание дата-центр, либо же аббревиатуру ЦОД (центр обработки данных), наше сознание моментально «подтягивает из кэша» набор стандартных лекал, которые казалось бы вполне однозначно ассоциируются с этим характерным представителем современной ИТ-инфраструктуры. Просторные помещения, серверные стойки – усеяны брызгами разноцветных светодиодов, гул блоков питания конкурирующий с еще более сильным шумом от вытяжки, что удаляет лишнее тепло из залов, переплетенные пучки кабелей всевозможных диаметров и окрасок, инженеры, рассекающие с важным видом по узким коридорам между стенами, выстроенными из высокотехнологичного оборудования. Что уже говорить о громадных счетах за электричество, это все казалось бы так естественно и безальтернативно. Не стану никого разочаровывать, в общем, так оно и есть, в 99% случаев.

Читать дальше →

Airpal: веб-приложение для работы с SQL

Время на прочтение3 мин
Количество просмотров11K


На днях мы выпустили в широкое обращение свой новый инструмент, Airpal. Это веб-приложение, предназначенное для работы с базами данных, которое призвано дополнить PrestoDB от Facebook при анализе информации. И в этом посте мы бы хотели рассказать о его возможностях и особенностях.
Читать дальше →

Ближайшие события

Курс по Big Data: три месяца на основные знания, и зачем это нужно

Время на прочтение8 мин
Количество просмотров80K


Студент в Big Data получает 70 тысяч рублей в месяц, а специалист с опытом 3-4 года — 250 тысяч рублей в месяц. Это те, например, кто умеет персонализировать предложения розницы, искать в соцсети человека по анкетным данным заявки на кредит или по списку посещённых сайтов вычислять новую симку старого абонента.

Мы решили сделать профессиональный курс по Big Data без «воды», маркетинга и всяких эджайлов, только хардкор. Позвали практиков из 7 крупных компаний (включая Сбербанк и Oracle) и устроили, фактически, хакатон длиной во весь курс. Недавно у нас прошел день открытых дверей по программе, где мы напрямую спросили практиков, что же есть Big Data в России, и как компании на деле используют большие данные. Ниже ответы.
Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №38 (2 — 8 марта 2015)

Время на прочтение3 мин
Количество просмотров9K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Эволюция носителей данных

Время на прочтение22 мин
Количество просмотров41K
«Чтоб тебе жить в эпоху перемен» — весьма лаконичное и вполне понятное проклятие для человека скажем старше 30 лет. Современный этап развития человечества сделал нас невольными свидетелями уникальной «эпохи перемен». И тут даже играет роль не то что бы масштаб современного научного прогресса, по значимости для цивилизации переход от каменных орудий труда к медным очевидно был куда более знаковым, нежели удвоение вычислительных способностей процессора, которое само по себе будет явно более технологичным. Та огромная, все нарастающая скорость изменений в техническом развитии мира просто обескураживает. Если еще лет сто назад каждый уважаемый себя джентльмен просто обязан был быть в курсе всех «новинок» мира науки и техники, чтоб не выглядеть в глазах своего окружения глупцом и деревенщиной, то сейчас учитывая объемы и скорость порождения этих «новинок» отслеживать их всецело просто невозможно, даже вопрос так не ставится. Инфляция технологий, еще до недавно не мыслимых, и связанных с ними возможностей человека, фактически убили прекрасное направление в литературе – «Техническая фантастика». В ней отпала нужда, будущее стало многократно ближе, чем, когда либо, задуманный рассказ о «чудесной технологии» рискует дойти до читателя позже, нежели что-то подобное уже будет сходить с конвейеров НИИ.

Прогресс технической мысли человека всегда наиболее быстро отображался именно в сфере информационных технологий. Способы сбора, хранения, систематизации, распространения информации проходят красной нитью через всю историю человечества. Прорывы будь то в сфере технических, или гуманитарных наук, так или иначе, отзывались на ИТ. Пройденный человечеством цивилизационный путь, это череда последовательных шагов усовершенствования способов хранения и передачи данных. В данной статье попробуем более детально разобраться и проанализировать основные этапы в процессе развития носителей информации, провести их сравнительный анализ, начиная от самых примитивных — глиняных табличек, вплоть до последних успехов в создании машинно-мозгового интерфейса.

Читать дальше →

Классификация неструктурированных данных – зачем она нужна?

Время на прочтение3 мин
Количество просмотров13K
Основная масса хранимых современными компаниями данных является неструктурированной, т.е. это данные, созданные сотрудниками компании, а не, скажем, базой данных или выгрузкой автоматического сервиса. При этом даже при идеально настроенной системе прав доступа к ресурсам нельзя гарантировать, что в отдельно взятой папке лежит действительно то содержимое, которое мы ожидаем там увидеть. Номера паспортов и кредитных карт в папке с договорами подрядчиков? Элементарно. Фоточки с без сомнения увлекательного отпуска на Гоа в папке бухгалтерской отчетности? Легко! Новинки кинопроката в каталоге для обучения сотрудников? Да запросто! Вы все еще удивлены?

image
Читать дальше →

Решения Dell PowerEdge для кинотеатрального контент-провайдера

Время на прочтение4 мин
Количество просмотров4.8K
На страницах нашего блога мы рассказываем о сотрудничестве с самыми разными компаниями и организациями – от локальных интернет-магазинов до университетов с мировым именем. Увы, большинство подобных кейсов описывают работу с зарубежными партнерами, но иногда попадаются интересные примеры и в России. Сегодня именно такой случай. Герой нашей новой истории – компания CineLAB, которая занимается прокатом киносъемочного оборудования, обработкой пленки, цифровым постпродакшеном, спутниковой доставкой видеоконтента и многими другими интересными задачами в «киношном» мире.


Читать дальше →

Обзор наиболее интересных материалов по анализу данных и машинному обучению №37 (23 февраля — 1 марта 2015)

Время на прочтение3 мин
Количество просмотров11K

Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать дальше →

Анонс MongoDB 3

Время на прочтение2 мин
Количество просмотров27K
Как-то незаметно прошел анонс новой версии MongoDB. Изменение номера версии с 2 на 3 указывает на значительные изменения внутри базы данных. Разработчики заявляют о значительном увеличении производительности и улучшении маштабируемости. Немного подробнее под катом.
image
Читать дальше →

Вклад авторов