Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

GemaltoRussia 6 окт 2016 в 06:54

Многоуровневый подход NoSQL к обеспечению безопасности больших данных

4 мин

4.6K

Блог компании Gemalto RussiaИнформационная безопасность*Big Data*

Если вы рассчитываете, что Большие данные станут той движущей силой, которая придаст импульс развитию вашего бизнеса, то вопрос обеспечения безопасности этих Больших данных должен стать одним из ваших основных приоритетов – и по большому счету в этом нет никакой сенсации. Но каким образом эффективнее всего осуществить такую защиту?

Читать дальше: 2 ключевых подхода к защите NoSQL

+6

anastasiagrishina 5 окт 2016 в 15:21

Обзор курсов по Deep Learning

11 мин

71K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Привет, Хабр! Последнее время все больше и больше достижений в области искусственного интеллекта связано с инструментами глубокого обучения или deep learning. Мы решили разобраться, где же можно научиться необходимым навыкам, чтобы стать специалистом в этой области.

Читать дальше →

+44

MariaTaradeyko 5 окт 2016 в 12:04

Речевая аналитика как инструмент управления KPI контакт-центра. Кейс «Ростелеком»

7 мин

17K

Блог компании Центр речевых технологий (ЦРТ)Клиентская оптимизация*Анализ и проектирование систем*Алгоритмы*Big Data*

Сегодня мы расскажем о том, как «Ростелеком Северо-Запад» повысил бизнес-показатели своего Единого Контакт-центра (ЕКЦ) с помощью инновационных технологий речевой аналитики. Подведены итоги консалтингового проекта, в рамках которого специалисты ЦРТ с помощью инструментов речевой аналитики Speech Analytics Lab проанализировали обращения клиентов в ЕКЦ «Ростелеком» и предложили методику улучшения качества обслуживания.

Зачем в КЦ нужна речевая аналитика?

ЕКЦ Северо-Западного филиала «Ростелеком» — огромная система, которая ежедневно обрабатывает тысячи обращений. При контроле качества супервизоры могут проанализировать только случайную выборку звонков, которая, как правило, составляет до 2% от общего числа обращений. А это не всегда даёт объективную картину.

С помощью инструментов речевой аналитики специалисты могут работать со 100% обращений. Для этого все диалоги ЕКЦ переводятся в текст и анализируются с помощью системы Speech Analytics Lab. Благодаря инструментам поиска в массивах неструктурированной речевой информации аналитик может отработать гипотезы (найти ключевые слова) на выборках в сотни тысяч фонограмм за несколько секунд.

На основе такого анализа можно разработать программу изменений для действующих в ЕКЦ процедур и процессов и оптимизировать системы самообслуживания (IVR, Личный кабинет, сайт).

Читать дальше →

+8

tsafin 4 окт 2016 в 10:24

MapReduce из подручных материалов. Часть II – базовые интерфейсы реализации

9 мин

5.5K

Блог компании InterSystemsПрограммирование*Алгоритмы*NoSQL*Big Data*

В предыдущей части серии мы (в 100500й раз) попытались рассказать про основные приемы и стадии подхода Google MapReduce, должен признаться, что первая часть была намерено "капитанской", чтобы дать знать о MapReduce целевой аудитории последующих статей. Мы не успели показать ни строчки того, как всё это мы собираемся реализовывать в Caché ObjectScript. И про это наша рассказ сегодня (и в последующие дни).

Напомним первоначальный посыл нашего мини-проекта: вы всё еще планируем реализовать MapReduce алгоритм используя те подручные средства, что есть в Caché ObjectScript. При создании интерфейсов, мы попытаемся придерживаться того API, что мы описали в предыдущей статье про оригинальную реализацию Google MapReduce, любые девиации будут озвучены соответствующе.

Читать дальше →

+19

i_shutov 3 окт 2016 в 14:07

Запрягаем R на службу бизнесу на «1-2-3»

6 мин

9.6K

Big Data*Data Mining*R*

Настоящий пост является является, фактически, резюме, подводящим итоги предыдущих «технологических» публикаций [1, 2, 3, 4, 5] и возникших дискуссий и обсуждений. Последние показали, что задач в которых применение R могло бы оказать хорошую помощь бизнесу очень и очень много. Однако, даже в тех случаях, когда R используется, далеко не всегда для этого применяются современные возможности R.

Читать дальше →

+23

freetonik 30 сен 2016 в 16:16

Что такое большие данные, часть 3

15 мин

23K

Data Mining*Big Data*Amazon Web Services*

Перевод

В первой части мы узнали о данных, и о том, как они могут быть использованы для извлечения из них метаданных или каких-то значений.

Вторая часть объяснила сам термин Big Data и показала, как он превратился в индустрию, причиной появления для которой стало влияние экономики. Эта, третья часть, в которой должно быть логическое продолжение предыдущих двух и у всего этого должен появиться смысл — грустная, местами ироничная, а местами пугающая. Вы видите сами, как технологические, бизнес, и даже социальные контракты в перспективе уже переопределялись большими данными таким путём, который мы только сейчас начинаем понимать. И, возможно, они никогда уже не станут контролируемыми.

С помощью чего бы не проводился анализ — суперкомпьютера или составленной вручную в 1665 году таблицы из списков мёртвых, некоторые аспекты больших данных существовали гораздо дольше, чем мы можем представить.

Темная сторона больших данных. Исторически роль больших данных не всегда была кристально чистотой. Идея переработки цифр, приводящей к количественной рационализации для чего-то, что мы и так хотели сделать, существует с тех пор, как у нас появились лишние деньги.

Читать дальше →

+27

HPCHub 30 сен 2016 в 07:11

Виртуальный суперкомпьютер по требованию

5 мин

11K

Блог компании HPC HUBBig Data*Высоконагруженные системы*Геоинформационные сервисы*Параллельное программирование*

Виртуальный суперкомпьютер (vSC) — это современная альтернатива использованию собственных суперкомпьютерных мощностей для наукоемкого бизнеса и научных групп при решении ресурсоемких задач. В процессе бурного развития облачных технологий клаудизация начала проникать в наиболее сложные IT-сферы — суперкомпьютинг и распределенные вычисления. Один из возможных подходов к задаче клаудизации HPC реализован компанией HPC HUB.

КДПВ

Читать дальше →

+11

anastasiagrishina 29 сен 2016 в 14:29

Data Science Week 2016. Обзор третьего и четвертого дня

7 мин

4.3K

Блог компании New Professions LabBig Data*Data Mining*NoSQL*Машинное обучение*

Хабр, привет! Публикуем обзор третьего и четвертого дня Data Science Week 2016, а именно это были Sberbank Data Day и день, посвященный теме искусственного интеллекта.

Читать дальше →

+9

m31 29 сен 2016 в 10:24

Видеозапись вебинара «Инструменты для работы Data Scientist»

1 мин

5.1K

Блог компании FlyElephantBig Data*Data Mining*Hadoop*Высоконагруженные системы*

Вчера наша команда провела вебинар на тему «Инструменты для работы Data Scientist». В его рамках мы рассмотрели, кто такой data scientist и какими инструментами он пользуется. Поговорили о платформе FlyElephant и чем она может быть полезной для работы data scientist’а.

Смотреть видеозапись и презентацию

+12

kmorozov 28 сен 2016 в 10:50

Измеряем производительность кэша Apache Ignite

7 мин

7.3K

Big Data*Java*Высоконагруженные системы*Программирование*

После того, как в предыдущих статьях данной серии обзоров распределённого Java-фреймворка Apache Ignite мы сделали первые шаги, познакомились с основными принципами построения топологии и даже сделали стартер для Spring Boot, неизбежно встаёт вопрос о кэшировании, которое является одной из основных функций Ignite. Прежде всего, хотелось бы понять, нужно ли оно, когда библиотек для кэширования на Java и так полным-полно. Тем, что предоставляется реализация стандарта JCache (JSR 107) и возможность распределённого кэширования в наше время удивить сложно. Поэтому прежде чем (или вместо того чтобы) рассматривать функциональные возможности кэша Apache Ignite, мне бы хотелось посмотреть, насколько он быстр.

Для исследования применялся бенчмарк cache2k-benchmark, разработанный с целью доказательства того, что у библиотеки cache2k кэш самый быстрый. Вот заодно и проверим. Настоящая статья не преследует цель всеобъемлющего тестирования производительности, или хотя бы научно достоверного, пусть этим занимаются разработчики Apache Ignite. Мы просто посмотрим на порядок величин, основные особенности и взаимное расположение в рейтинге, в котором будут ещё cache2k и нативный кэш на ConcurrentHashMap.

Читать дальше →

+17

ARG89 27 сен 2016 в 13:05

Welcome to Spark… on Java: Интервью с Евгением Борисовым

9 мин

14K

Блог компании JUG Ru GroupJava*Big Data*

Big Data – это проблема. Количество информации растет с каждым днем, и она накапливается как снежный ком. Прекрасно то, что проблема эта имеет решения, только в мире JVM больший данных процессят десятки тысяч проектов.

В 2012 году увидел свет фреймворк Apache Spark, разработанный на Scala и рассчитанный на повышение производительности определенных классов задач в работе с Big Data. Проекту уже 4 года он повзрослел и дорос до версии 2.0, к которой (на самом деле уже начиная с версии 1.3-1.5) имеет мощный и удобный API для работы с Java. Чтобы понять, для кого это все надо, какие именно задачи стоит решать при помощи Spark, а какие не стоит, мы поговорили с Евгением EvgenyBorisov Борисовым, автором тренинга «Welcome to Spark», который пройдет 12-13 октября в Петербурге.

Читать дальше →

+22

ph_piter 27 сен 2016 в 09:10

Книга «Spark для профессионалов: современные паттерны обработки больших данных»

4 мин

13K

Блог компании Издательский дом «Питер»Профессиональная литература*Big Data*

Привет, Хаброжители! Ранее мы переводили статью «Знакомство с Apache Spark». Сейчас вы знакомим Вас с одноименной книгой, написанной Сэнди Ризай, Ури Лезерсоном, Шоном Оуэн, Джошем Уиллсом.

В этой практичной книге четверо специалистов Cloudera по анализу данных описывают самодостаточные паттерны для выполнения крупномасштабного анализа данных при помощи Spark. Авторы комплексно рассматривают Spark, статистические методы и множества данных, собранные в реальных условиях, и на этих примерах демонстрируют решения распространенных аналитических проблем.

Читать дальше →

+16

maxim_babenko 27 сен 2016 в 08:02

YT: зачем Яндексу своя MapReduce-система и как она устроена

14 мин

92K

Блог компании ЯндексBig Data*Алгоритмы*Анализ и проектирование систем*Промышленное программирование*

В течение последних шести лет в Яндексе идет работа над системой под кодовым называнием YT (по-русски мы называем её «Ыть»). Это основная платформа для хранения и обработки больших объемов данных — мы уже о ней рассказывали на YaC 2013. С тех пор она продолжала развиваться. Сегодня я расскажу о том, с чего началась разработка YT, что нового в ней появилось и что ещё мы планируем сделать в ближайшее время.

Кстати, 15 октября в офисе Яндекса мы расскажем не только о YT, но и о других наших инфраструктурных технологиях: Media Storage, Yandex Query Language и ClickHouse. На встрече мы раскроем тайну — расскажем, сколько же в Яндексе MapReduce-систем.

Какую задачу мы решаем?

По роду своей деятельности Яндекс постоянно сталкивается с необходимостью хранить и обрабатывать данные таких объемов, с которыми обычному пользователю никогда не приходится иметь дело. Поисковые логи и индексы, пользовательские данные, картографическая информация, промежуточные данные и результаты алгоритмов машинного обучения — все это может занимать сотни петабайт дискового пространства. Для эффективной обработки подобных объемов традиционно используется парадигма MapReduce, позволяющая достичь хорошего баланса между эффективностью вычислений и простотой пользовательского кода.

Читать дальше →

+104

anastasiagrishina 26 сен 2016 в 11:18

Data Science Week 2016. Обзор первого и второго дня

6 мин

4.3K

Блог компании New Professions LabМашинное обучение*Data Mining*Big Data*

Хабр, привет! Публикуем обзор первых двух дней Data Science Week 2016, в которые наши спикеры говорили о взаимоотношениях с клиентом и внутренней оптимизации.

Читать дальше →

+12

kmorozov 23 сен 2016 в 13:53

Spring Boot стартер для Apache Ignite своими руками

11 мин

11K

Big Data*Java*Анализ и проектирование систем*Программирование*

Вот уже вышло две статьи в потенциально очень длинной серии обзоров распределённой платформы Apache Ignite (первая про настройку и запуск, вторая про построение топологии). Данная статья посвящена попытке подружить Apache Ignite и Spring Boot. Стандартным способом подключения некой библиотеки к Spring Boot является создание для этой технологии «стартера». Несмотря на то, что Spring Boot весьма популярен и на Хабре описывался не единожды, про то, как делать стартеры, вроде бы ещё не писали. Этот досадный пробел я постараюсь закрыть.

Статья посвящена преимущественно Spring Boot'у и Spring Core, так что те, кого тема Apache Ignite не интересует, всё равно могут узнать что-то новое. Код выложен на GitHub, стартера и демо-приложения.

Читать дальше →

+13

kmorozov 21 сен 2016 в 10:47

Работа с топологией Apache Ignite

9 мин

13K

Big Data*Java*Программирование*

В предыдущей статье я рассказал о том, как построить простейшую топологию для Apache Ignite. Она состояла из одного клиента и одного сервера, клиент слал на сервер сообщение и сервер его отображал. Было рассказано о том, как настроить продукт и проконтролировать его жизнедеятельность. Теперь пришло время для более сложного примера. Будет продемонстрировано построение сложной топологии и более интересные сценарии взаимодействия. Предполагается, что читатель ознакомился с базовыми операциями с Apache Ignite, изложенными в первой статье. В результате прочтения этих двух статей у читателя могут возникнуть какие-то предположения о том, как ему применить этот, без преувеличения, мощный продукт в своих проектах. Также статья будет полезна тем, кто интересуется построением высокопроизводительных систем, и хочет подсмотреть готовое решение для своего велосипеда.

Читать дальше →

+15

anastasiagrishina 20 сен 2016 в 15:03

Новое в нашей программе по big data и три стипендии на обучение

3 мин

5.9K

Блог компании New Professions LabBig Data*Data Mining*Машинное обучение*

Хабр, привет! В скором времени, 5 октября, у нас стартует уже 5-ый набор программы “Специалист по большим данным”. Сейчас проходит активная стадия подготовки к организации этого 3-месячного марафона, и мы с коллегами задались вопросами, что же будет нового в этом наборе.

Программа уже существует на рынке 1.5 года, обкатана и проработана с разных сторон, но есть важные изменения в силу того, что технологии не стоят на месте.

Читать дальше →

+9

Shestakov088 20 сен 2016 в 11:05

CIKM Cup 2016 – международное соревнование в области Data Science

6 мин

4.3K

Блог компании DCA (Data-Centric Alliance)Занимательные задачкиBig Data*

Big Data наступают по всем фронтам — их роль растёт в науке, бизнесе, медицине, управлении безопасностью и в экономике. Поэтому каждая из сфер готова на на шутку бороться за лучшие умы специалистов. Среди самых удачных попыток найти самых-самых — важнейшее мировое соревнование в области анализа данных CIKM Cup 2016, который проходит в рамках 25-ой международной конференции CIKM Conf. 2016. Российская технологическая компания DCA, специализирующаяся на работе с большими данными и высоконагруженными системами, на этот раз стала партнером конференции и соревнования. DCA сформировала задачу, которую предстоит решить участникам CIKM Cup 2016, а также обеспечила необходимым набором данных для анализа. Хотите узнать немного больше о задаче и попробовать силы в соревнованиях Data Scientist — вам под кат. Кому как не нам знать, насколько сильны российские специалисты в сфере обработки данных.

Мы ищем своих Брюсов Уиллисов.

Читать дальше →

+18

i_shutov 20 сен 2016 в 09:37

Вам не хватает скорости R? Ищем скрытые резервы

3 мин

5.5K

R*Data Mining*Big Data*

Иногда приходится сталкиваться с убеждением, что R, будучи интерпретатором, слишком медленный для анализа задач «быстрого» бизнеса. В большинстве случаев такие тезисы поступают от аналитиков, не обладающих опытом разработки серьезного ПО, в т.ч. высокопроизводительных или встроенных систем, крайне требовательных к ограниченным аппаратным ресурсам. Это совершенно нормально, никто не может знать все на свете. однако, в 95% случаев оказывается, что R совершенно ни при чем, проблема заключается в неэффективном управлении памятью и процессом вычисления.

Читать дальше →

+6

kmorozov 19 сен 2016 в 14:13

Знакомство с Apache Ignite: первые шаги

11 мин

86K

Big Data*Java*Программирование*

Туториал

Рискну предположить, что среднестатистический читатель этой статьи с продуктом Apache Ignite не знаком. Хотя, возможно, слышал или даже читал статью на Хабре, в которой описывается один из возможных сценариев использования этого продукта. О принудительном использовании Ignite в качесте L2 кэша для Activiti я писал недавно. Возможно, узнав о том, что это написанный на Java open source продукт, позиционирующий себя как «высокопроизводительная, интегрированная и распределённая in-memory платформа для вычисления и обработки больших объёмов данных в реальном времени», обладающая, помимо прочего возможностью автоматического деплоймента вашего проекта на все ноды сложной топологии, вам захочется с ним познакомиться. Испытав такое желание, вы обнаружите, что Ignite документирован не то, чтобы совсем плохо, но и не очень хорошо. Есть туториал, кое-какой javadoc, но полного и целостного впечатления от ознакомления с этими источниками не возникает. В настоящей статье я попытаюсь восполнить этот пробел на основе собственного опыта познания Ignite, полученного преимущественно путём дебага. Возможно, в своих выводах и впечатлениях я буду не всегда прав, но таковы издержки метода. От читателя и тех, кто захочет повторить мой путь, требуется не так много, а именно знание Java 8 core, multithreading и Spring core.

В статье будет рассмотрен и препарирован пример класса «Hello World!» с использованием данной технологии.

Читать дальше →

+10

1 2 ...

163

164 165 ...