Как стать автором
Поиск
Написать публикацию
Обновить
77.31

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

«Пятый элемент» в экосистеме R. WYSIWYG интерфейс для аналитиков

Время на прочтение2 мин
Количество просмотров5.5K

Настоящая публикация, хоть и продолжает серию предыдущих, но будет совершенно краткой. И не в силу того, что материал скромный, но потому, что есть отличный первоисточник с массой текстов и видео.


Практика общения с аналитиками показала, что лаконичная консоль или лист программы в RStudio IDE как удобный инструмент начинает восприниматься людьми, воспитанными в подходе WYSIWYG, далеко не с первого дня. Продукты PowerBI\Tableau\Qlik, активно использующие этот подход, хорошо известны в российском информационном пространстве и зачастую аналитики пытаются соотнести R+Shiny с этими продуктами.

Читать дальше →

Data Science Weekend. Презентации спикеров

Время на прочтение1 мин
Количество просмотров4.3K
Хабр, привет! 3-4 марта команда New Professions Lab провела в Москве Data Science Weekend. Как и обещали, публикуем презентации наших спикеров. Если вы хотите получить доступ к видео выступлений, заполните, пожалуйста, короткую форму здесь.

image
Читать дальше →

Big Data: большие возможности или большой обман

Время на прочтение7 мин
Количество просмотров15K
Мы в 1cloud часто рассказываем о технологиях, например, недавно мы писали о машинном обучении и all-flash-массивах хранения данных. Сегодня мы решили поговорить о Big Data. Чаще всего основным определением больших данных считают известные «3V» (Volume, Velocity и Variety), которые ввел аналитик Gartner Дуг Лейни (Doug Laney) в 2001 году.

При этом иногда самым важным считают именно объем данных, что отчасти обусловлено самим названием. Поэтому многие задумываются только о том, данные какого размера можно считать большими. В этой статье мы решили выяснить, что на самом деле важно в больших данных помимо размера, как они появились, почему их критикуют и в каких сферах они успешно применяются.

Читать дальше →

Будут ли data scientist’ы в ближайшее время заменены автоматизированными алгоритмами и искусственным интеллектом?

Время на прочтение7 мин
Количество просмотров12K
Хабр, привет! В современном машинном обучении и науке о данных можно выделить несколько трендов. Прежде всего, это глубокое обучение: распознавание изображений, аудио и видео, обработка текстов на естественных языках. Еще одним трендом становится обучение с подкреплением — reinforcement learning, позволяющее алгоритмам успешно играть в компьютерные и настольные игры, и дающее возможность постоянно улучшать построенные модели на основе отклика внешней среды.

Есть и еще один тренд, менее заметный, так как его результаты для внешних наблюдателей выглядят не так впечатляюще, но не менее важный — автоматизация машинного обучения. В связи с его стремительным развитием вновь актуальным становится вопрос о том, не будут ли data scientist’ы в конце концов автоматизированы и вытеснены искусственным интеллектом.
Читать дальше →

Обзор рынка труда в области big data и data science

Время на прочтение5 мин
Количество просмотров23K
Хабр, привет! По релевантным поисковым запросам нашлось около 1000 вакансий, затем они были вручную отфильтрованы по заголовкам и описаниям, и для подготовки обзора мы использовали 288 активных вакансий в области big data и data science с HeadHunter.

В действительности активных вакансий больше, так как во внимание не принимались другие ресурсы (например, SuperJob, Blastim, социальные сети, сайты компаний). Кроме того, нужно понимать, что это всего лишь снимок текущей ситуации, каждый день вакансии заполняются и появляются новые.
Читать дальше →

Речевая аналитика как инструмент управления KPI контакт-центра. Кейс «Ростелеком»

Время на прочтение7 мин
Количество просмотров17K


Сегодня мы расскажем о том, как «Ростелеком Северо-Запад» повысил бизнес-показатели своего Единого Контакт-центра (ЕКЦ) с помощью инновационных технологий речевой аналитики. Подведены итоги консалтингового проекта, в рамках которого специалисты ЦРТ с помощью инструментов речевой аналитики Speech Analytics Lab проанализировали обращения клиентов в ЕКЦ «Ростелеком» и предложили методику улучшения качества обслуживания.

Зачем в КЦ нужна речевая аналитика?


ЕКЦ Северо-Западного филиала «Ростелеком» — огромная система, которая ежедневно обрабатывает тысячи обращений. При контроле качества супервизоры могут проанализировать только случайную выборку звонков, которая, как правило, составляет до 2% от общего числа обращений. А это не всегда даёт объективную картину.

С помощью инструментов речевой аналитики специалисты могут работать со 100% обращений. Для этого все диалоги ЕКЦ переводятся в текст и анализируются с помощью системы Speech Analytics Lab. Благодаря инструментам поиска в массивах неструктурированной речевой информации аналитик может отработать гипотезы (найти ключевые слова) на выборках в сотни тысяч фонограмм за несколько секунд.

На основе такого анализа можно разработать программу изменений для действующих в ЕКЦ процедур и процессов и оптимизировать системы самообслуживания (IVR, Личный кабинет, сайт).
Читать дальше →

Облачный дайджест #6: Работа с данными и безопасность

Время на прочтение2 мин
Количество просмотров3.5K
Читать дальше →

Ожидания направлений развития в сфере хранения и обработки данных до 2020 года. Основные тренды

Время на прочтение13 мин
Количество просмотров7K


Развитие ИТ-инфраструктуры — это неуклонный процесс, который был, есть и непременно будет, набирая все только большие обороты. Взяв очередную высоту стандартов осуществления своей деятельности, перед сетевыми инженерами открываются новые горизонты, достижение которых становится для них очередным вызовом и основой их повседневных трудов. Для успешного функционирования ИТ-компаний всегда было очень важным точно определить цели, направления развития, самые актуальные тренды ведь как можно наблюдать именно ИТ-сфера находится на самом острие технологического прогресса и особо подвержена внедрению нововведений. В древности, за возможностью заглянуть в день грядущий, люди обращались к оракулам и вещунам, сейчас же эту столь вакантную деятельность «окучивают» профессиональные ассоциации, проводя всевозможные опросы и создавая на их основе самые разносторонне направленные отчеты.

Именно таким отчетом, совсем недавно, порадовала ИТ-сообщество AFCOM(Association for Computer Operation Management). Предметом полномасштабного исследования стало функционирование дата-центров. Со слов представителей AFCOM представленный отчет является настоящим событием, поскольку охватил самые широкие слои специалистов задействованных в работе ЦОД(Центр Оброботки Данных). Сетевые инженеры, менеджеры, программисты и владельцы компаний-провайдеров в представленном докладе дадут нам более четкое виденье той ситуации, в которой отрасль находится сейчас и где она окажется в ближайшие 3-4 года. Далее в статье будут представлены основные акценты на которых базируется вышеупомянутый отчет, что претендует быть наиболее репрезентативным и наиболее актуальным среди всех аналогичных проведеных в 2015 году.

Читать дальше →

Какие факторы влияют на производительность систем хранения и как?

Время на прочтение13 мин
Количество просмотров35K
Системы хранения данных для подавляющего большинства веб-проектов (и не только) играют ключевую роль. Ведь зачастую задача сводится не только к хранению определенного типа контента, но и к обеспечению его отдачи посетителям, а также обработки, что накладывает определенные требования к производительности.

В то время, как при производстве накопителей используется множество других метрик, чтоб описать и гарантировать должную производительность, на рынке систем хранения и дисковых накопителей, принято использовать IOPS, как сравнительную метрику, с целью «удобства» сравнения. Однако производительность систем хранения, измеряемая в IOPS (Input Output Operations per Second), операциях ввода / вывода (записи / чтения), подвержена влиянию большого множества факторов.

В этой статье я хотел бы рассмотреть эти факторы, чтобы сделать меру производительности, выраженную в IOPS, более понятной.

Начнем с того, что IOPS вовсе не IOPS и даже совсем не IOPS, так как существует множество переменных, которые определяют сколько IOPS мы получим в одних и других случаях. Также следует принять во внимание, что системы хранения используют функции чтения и записи и обеспечивают различное количество IOPS для этих функций в зависимости от архитектуры и типа приложения, в особенности в случаях, когда операции ввода / вывода происходят в одно и тоже время. Различные рабочие нагрузки предъявляют различные требования к операциям ввода / вывода (I/O). Таким образом, системы хранения, которые на первый взгляд должны были бы обеспечивать должную производительность, в действительности могут не справится с поставленной задачей.
Читать дальше →

Как большим операторам зарабатывать большие деньги на больших данных?

Время на прочтение8 мин
Количество просмотров11K


Никогда не бывает больших дел без больших трудностей.

Вольтер

В России очень высока конкуренция на рынке телеком-услуг, и при большой степени охвата населения цены на них – одни из самых низких в мире.

В условиях снижения выручки от традиционных услуг (голосовой связи, SMS, MMS) и ужесточающейся конкуренции со стороны OTT большинство крупных телеком-операторов рассматривают возможность использования технологии Big Data для анализа данных. Операторы собирают сведения о транзакциях потребления сервисов, о поведении абонентов, данные, характеризующие параметры работоспособности и производительности сети, и т. п. Однако, как правило, эти данные собираются разными департаментами в разных форматах, при этом существует целый ряд организационных барьеров, которые препятствуют свободному обмену информацией между бизнес-подразделениями. Кроме того, отсутствует механизм объединения, очистки и дедупликации, без которого эти данные не могут быть подвергнуты анализу.
Читать дальше →

Прием докладов на конференцию по искусственному интеллекту и большим данным AI&BigData Lab

Время на прочтение1 мин
Количество просмотров2.8K


4 июня в Одессе, наша команда FlyElephant совместно с GeeksLab будет проводить третью ежегодную техническую конференцию по искусственному интеллекту и большим данным — AI&BigData Lab.

На конференции разработчики обсудят вопросы реализации и применения различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о функционале и принципах их работы.

Сейчас мы активно работаем над формированием программы, если у вас есть интересная тема для доклада, ее можно подать здесь.

Отчет с прошлого года — здесь.

Визуализация инструментов обработки данных с Github

Время на прочтение3 мин
Количество просмотров7.6K
В своей работе вы используете MySQL, Postgres или Mongo, а может даже Apache Spark? Хотите знать с чего начинались эти проекты и куда они движутся сейчас? В этой статье я представлю соответствующую визуализацию



Читать дальше

Ученые создали нейросеть, распознающую «пьяные» сообщения в Twitter

Время на прочтение4 мин
Количество просмотров12K
В свете текущих выходных, важно не забывать, что алкоголь и общение, вместе составляют не всегда хорошую комбинацию, даже у звезд. Тем не менее, многие из нас повторяют этот опыт снова и снова. И этот опыт дал американским ученым (Nabil Hossain с приятелями из University of Rochester) интересную идею. В итоге, американские ученые разработали нейронную сеть, способную распознавать в Twitter посты написанные в состоянии алкогольного опьянения. Кроме того, полученная математическая модель может определять, где авторы «пьяных» постов находились в момент их написания.
Об этом сообщает MIT Technology Review.


Читать дальше →

Ближайшие события

Строим надёжный процессинг данных — лямбда архитектура внутри Google BigQuery

Время на прочтение5 мин
Количество просмотров23K
В этой статье хочу поделиться способом, который позволил нам прекратить хаос с процессингом данных. Раньше я считал этот хаос и последующий ре-процессинг неизбежным, а теперь мы забыли что это такое. Привожу пример реализации на BiqQuery, но трюк довольно универсальный.

У нас вполне стандартный процесс работы с данными. Исходные данные в максимально сыром виде регулярно подгружаются в единое хранилище, в нашем случае в BigQuery. Из одних источников (наш собственный продакшн) данные приходят каждый час, из других (обычно сторонние источники) данные идут ежедневно.

В последствии данные обрабатываются до состояния пригодного к употреблению разнообразными пользователями. Это могут быть внутренние дашборды; отчёты партнёрам; результаты, которые идут в продакшн и влияют на поведение продукта. Эти операции могут быть довольно сложными и включать несколько источников данных. Но по большей части мы с этим справляется внутри BigQuery с помощью SQL+UDF. Результаты сохраняются в отдельные таблицы там же.
Читать дальше →

Интерактивная карта клиентов — Apache Spark Streaming и Яндекс.Карты

Время на прочтение6 мин
Количество просмотров17K
Бигдата напирает. Бизнесу уже недостаточно уметь обрабатывать ночью накопленные за день данные и принимать решение с задержкой в сутки. Хотят, чтобы система анализировала данные в режиме онлайн и реагировала быстро на:
  • изменение котировок
  • действия пользователей в онлайн-игре
  • отображала агрегированную информацию из соцсетей в различных проекциях

и т.д. Если вы так не умеете, то смузи уже не нальют.

Читать дальше →

Data Driven Realtime Rule Engine в Wargaming: сбор данных

Время на прочтение7 мин
Количество просмотров9.7K
Сфера деятельности нашей компании распространяется далеко за пределы игровой разработки. Параллельно с ней мы ведем десятки внутренних проектов, и Data Driven Realtime Rule Engine (DDRRE) – один из наиболее амбициозных.

Data Driven Realtime Rule Engine – специальная система, которая при помощи анализа больших массивов данных в режиме реального времени позволяет персонифицировать взаимодействие с игроком через рекомендации, поступающие пользователю исходя из контекста его последнего игрового опыта.

DDRRE позволяет нашим игрокам получать больше удовольствия от игры, улучшает их пользовательский опыт, а также избавляет от просмотра ненужных рекламных и промо-сообщений.

Архитектура DDRRE

Читать дальше →

Highload Dev Conf'2015 прошла 17 октября в Минске

Время на прочтение2 мин
Количество просмотров5.1K
17 октября прошла ежегодная брутальная конференция Highload Dev Conf.
Участниками стали более 300 суровых разработчиков, которым интересны высоконагруженные проекты и BigData.

image
Читать дальше →

Анализ покупательских корзин в ритейле

Время на прочтение7 мин
Количество просмотров19K
Задача № 1 для ритейлера — понять, кто конкретно совершает покупки в магазине, изучить поведение покупателей, выделить типичные модели, и с помощью этих знаний влиять на количество и качество покупок.

Решение возможно, используя такие подходы:
  • анализ данных из программ лояльности и другие формы изучения персон и поведения покупателей;
  • анализ данных о покупках и транзакциях.

Перефразируя второй подход — какие товары покупатель положил в свою корзину?


Читать дальше →

Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse

Время на прочтение8 мин
Количество просмотров35K
В нашей компании мы регулярно пробуем и анализируем новые интересные технологии в области хранения и управления большими данными. В апреле с нами связались представители компании Snowflake Computing и предложили попробовать их продукт Snowflake Elastic Data Warehouse — облачное хранилище данных. Они работают над созданием эластичной системы, которая могла бы легко расширяться по мере необходимости — при увеличении объема данных, нагрузки и прочих неприятностях.

Обычно СУБД работают в условиях, когда объем доступных ресурсов ограничен имеющимся оборудованием. Чтобы добавить ресурсов, надо добавить или заменить сервера. В облаке же ресурсы доступны в тот момент, когда они понадобились, и их можно вернуть, если они больше не нужны. Архитектура Snowflake позволяет воспользоваться всеми преимуществами облака: хранилище данных может мгновенно расширяться и сжиматься, не прерывая выполняющиеся запросы.
Читать дальше →

Файловая система и Hadoop: Опыт Twitter (Часть 2)

Время на прочтение2 мин
Количество просмотров9.7K
Наш основной принцип работы заключается в том, что IaaS должен быть простым и понятным даже для тех, кто не сталкивался с ИТ-сферой. Поэтому мы проводим постоянную оптимизацию всех систем и рассказываем о том, что нам удалось сделать, в нашем блоге на Хабре.

Пара примеров:


Сегодня мы решили продолжить краткий разбор заметки команды инженеров Twitter о создании файловой системы для работы с кластерами Hadoop.

Читать дальше →

Вклад авторов