Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Анализируем большие объемы данных с Apache Spark

Разработка веб-сайтов *Программирование *Java *Data Mining *Big Data *
image
С анализом больших объемов данных постепенно начинают сталкиваться не только крупнейшие IT-компании, но и обычные разработчики. В нашей компании в ряде проектов такая задача возникает, и мы решили систематизировать накопленный опыт, поделившись с коллегами по i-Free и нашими партнерами наиболее эффективными инструментами и технологиями. Сегодня речь пойдет о применении Apache Spark
Подробности
Всего голосов 16: ↑13 и ↓3 +10
Просмотры 16K
Комментарии 8

Как узнать год выпуска песни по набору аудио характеристик?

Scala *Big Data *Машинное обучение *
Из песочницы
Tutorial
Недавно завершился курс Scalable Machine Learning по Apache Spark, рассказывающий о применении библиотеки MLlib для машинного обучения. Курс состоял из видеолекций и практических заданий. Лабораторные работы необходимо было выполнять на PySpark, а поскольку по работе мне чаще приходится сталкиваться со scala, я решил перерешать основные лабы на этом языке, а заодно и лучше усвоить материал. Больших отличий конечно же нет, в основном, это то, что PySpark активно использует NumPy, а в версии со scala используется Breeze.

Первые два практических занятия охватывали изучение основных операций линейной алгебры в NumPy и знакомство с apache spark соответственно. Собственно машинное обучение началось с третьей лабораторной работы, она и разобрана ниже.
Ну что же, поехали!
Всего голосов 16: ↑12 и ↓4 +8
Просмотры 11K
Комментарии 6

Прокладка трубопровода со spark.ml

Scala *Машинное обучение *
Tutorial
Сегодня я бы хотел рассказать о появившемся в версии 1.2 новом пакете, получившем название spark.ml. Он создан, чтобы обеспечить единый высокоуровневый API для алгоритмов машинного обучения, который поможет упростить создание и настройку, а также объединение нескольких алгоритмов в один конвейер или рабочий процесс. Сейчас на дворе у нас версия 1.4.1, и разработчики заявляют, что пакет вышел из альфы, хотя многие компоненты до сих пор помечены как Experimental или DeveloperApi.

Ну что же, давайте проверим, что может новый пакет и насколько он хорош.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 10K
Комментарии 0

IBM добавляет поддержку Apache Spark для z Systems

Блог компании IBM Open source *


Корпорация IBM заявила о том, что Apache Spark для Linux будет поддерживаться z Systems. Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах z Systems.

Обеспечение поддержки Apache Spark для Linux на системах типа z Systems открывает возможность расширения экосистемы таких систем, одновременно увеличивая число сфер их применения. Разработчики IBM интегрируют Apache Spark с z/OS уже в этом году. Специалисты по работе с данными смогут использовать стандартный программный фреймворк вне зависимости от специфики формата данных.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 4.4K
Комментарии 3

Apache Spark или возвращение блудного пользователя

Блог компании Targetix Разработка веб-сайтов *Big Data *
Продолжаем цикл статей про DMP и технологический стек компании Targetix.

На это раз речь пойдет о применении в нашей практике Apache Spark и инструментe, позволяющем создавать ремаркетинговые аудитории.

Именно благодаря этому инструменту, однажды посмотрев лобзик, вы будете видеть его во всех уголках интернета до конца своей жизни.
Здесь мы и набили первые шишки в обращении с Apache Spark.

Архитектура и Spark-код под катом.


Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 12K
Комментарии 30

Настраиваем связку Apache Zeppelin + Oracle

Блог компании Инфосистемы Джет Open source *Oracle *Визуализация данных
Давно ищу удобный инструмент для выполнения ad hoc SQL-запросов в БД Oracle, с возможностью быстрого построения различных типов графиков на полученных данных. Все, что может облегчить оперативное создание отчетов, как говорится «на лету». Совсем недавно наткнулся на вот такой инструмент как Apache Zeppelin. Короткий обзор возможностей в документации на сайте и демо-видео показал, что это штука достаточно интересная и имеет смысл более плотно исследовать ее и настроить доступ из Apache Zeppelin к СУБД Oracle.


Читать дальше →
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 13K
Комментарии 0

Видео докладов Badoo с конференции Highload 2015

Блог компании Badoo Разработка веб-сайтов *Hadoop *
Наконец-то у нас появились видео выступления наших спикеров на Highload 2015, которые мы с удовольствием выкладываем.

Если у вас появятся вопросы к докладчикам, задавайте их в комментариях. Ребята на них обязательно ответят.

1. «Near-realtime аналитика событий в высоконагруженном проекте», доклад Александра Крашенинникова



Еще 3 отличных доклада
Всего голосов 25: ↑24 и ↓1 +23
Просмотры 12K
Комментарии 1

IBM продолжает работу с Apache Spark: корпорация запускает Spark-as-a-service

Блог компании IBM Высокая производительность *


На конференции IBM Insight 2015 было сделано сразу несколько интересных анонсов. Основное — это продолжение развития идеи поддержки проекта Apache Spark. IBM запускает IBM Analytics on Apache Spark, при этом облачной платформой служит Bluemix. Напомним, что в июне корпорация IBM заявила о намерении инвестировать в проект более 300 миллионов долларов за несколько лет. Кроме того, ранее стало известно, что Apache Spark для Linux будет поддерживаться z Systems.

Такая поддержка будет осуществляться в рамках проекта «аналитика на мейнфреймах». Благодаря этому специалисты по дата-майнингу смогут использовать Apache Spark на мощных мейнфреймах z Systems.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Просмотры 6.2K
Комментарии 1

Spark local mode: обработка больших файлов на обычном ноутбуке

SQL *API *Big Data *
image
Всем привет.
4 января вышла новая версия Apache Spark 1.6 с bug fix новыми возможностями обработки больших данных. На Хабре написано немало статей по использованию этого инструмента от введения до опыта использования в проектах. Spark работает на большинстве операционных систем и его можно запускать в локальном режиме даже на обычном ноутбуке. Используя простоту настройки Spark в этом случае грех не воспользоваться основными функциям. В этой статье мы посмотрим как на ноутбуке быстро настроить обработку большого файла (больше оперативной памяти компьютера) с помощью обычных SQL-запросов. Это позволит делать запросы даже неподготовленному пользователю. Дополнительное подключение iPython (Jupyter) notebook позволит составлять полноценные отчеты. В статье разобран простой пример обработки файла, другие примеры на Python есть тут.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 20K
Комментарии 7

Используем Apache Spark как SQL Engine

Блог компании Wrike Open source *SQL *Big Data *


Привет, Хабр! Мы, Wrike, ежедневно сталкиваемся с потоком данных от сотен тысяч пользователей. Все эти сведения необходимо сохранять, обрабатывать и извлекать из них ценность. Справиться с этим колоссальным объёмом данных нам помогает Apache Spark.

Мы не будем делать введение в Spark или описывать его положительные и отрицательные стороны. Об этом вы можете почитать здесь, здесь или в официальной документации. В данной статье мы делаем упор на библиотеку Spark SQL и её практическое применение для анализа больших данных.

Читать дальше →
Всего голосов 15: ↑13 и ↓2 +11
Просмотры 19K
Комментарии 0

Анализ поведенческих факторов с помощью Apache Spark

Разработка веб-сайтов *PHP *Data Mining *
Tutorial
Речь пойдёт об использовании Apache Spark для анализа поведенческих факторов на сайте, который имеет очень большую посещаемость. Учёт поведенческих факторов весьма часто используется для повышения конверсии ресурса. Кроме этого, возможности Интернет позволяют очень просто и быстро собирать и анализировать гигантское количество самой разной статистической информации. Будут показаны примеры кода и даны некоторые советы, основанные на личном опыте автора статьи.
Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 11K
Комментарии 1

Производительность Apache Parquet

Data Mining *Scala *Big Data *
Перевод

Плохой пример хорошего теста


В последнее время в курилках часто возникали дискуссии на тему сравнения производительности различных форматов хранения данных в Apache Hadoop — включая CSV, JSON, Apache Avro и Apache Parquet. Большинство участников сразу отметают текстовые форматы как очевидных аутсайдеров, оставляя главную интригу состязанию между Avro и Parquet.


Господствующие мнения представляли собой неподтвержденные слухи о том, что один формат выглядит "лучше" при работе со всем датасетом, а второй "лучше" справляется с запросами к подмножеству столбцов.


Как любой уважающий себя инженер, я подумал, что было бы неплохо провести полноценные performance-тесты, чтобы наконец проверить, на чьей стороне правда. Результат сравнения — под катом.


Apache Parquet Logo

Читать дальше →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 13K
Комментарии 0

Spark Summit 2016: обзор и впечатления

Блог компании Wrike Анализ и проектирование систем *Data Mining *Big Data *

В июне прошло одно из самых крупных мероприятий мира в сфере big data и data science — Spark Summit 2016 в Сан-Франциско. Конференция собрала две с половиной тысячи человек, включая представителей крупнейших компаний (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera и так далее). Многие из них используют Apache Spark, включая контрибьюторов в open source и вендоров собственных разработок в big data/data science на базе Apache Spark.


Мы в Wrike активно используем Spark для задач аналитики, поэтому не могли упустить возможности из первых рук узнать, что происходит нового на этом рынке. С удовольствием делимся своими наблюдениями.

Читать дальше →
Всего голосов 12: ↑11 и ↓1 +10
Просмотры 7K
Комментарии 4

Strata + Hadoop 2016 review

Блог компании Badoo Высокая производительность *Программирование *Big Data *Hadoop *


В последний год в Badoo стали очень активно использовать связку Hadoop + Spark и построили свою систему сбора и обработки десятков миллионов метрик при помощи Spark Streaming.
Для того чтобы расширить наши знания и познакомиться с последними новинками в этой сфере, в конце мая этого года разработчики отдела BI (Business Intelligence) отправились в Лондон, где проходила очередная конференция серии Hadoop + Strata, посвященная широкому спектру вопросов в области машинного обучения, обработки и анализа больших данных.
Читать дальше →
Всего голосов 15: ↑15 и ↓0 +15
Просмотры 5.3K
Комментарии 2

Нелинейная регрессия в Apache Spark. Разрабатываем своими руками

Scala *Big Data *Машинное обучение *
Tutorial


При решении задач обработки сигналов часто применяют метод аппроксимации сырых данных моделью регрессии. Исходя из структуры, модели можно разделить на три типа – линейные, сводящиеся к линейным и нелинейные. В модуле машинного обучения «Spark ML» Apache Spark функционал для первых двух типов представлен классами LinearRegression и GeneralizedLinearRegression соответственно. Обучение нелинейных моделей в стандартной библиотеке не представлено и требует самостоятельной разработки.
Читать дальше →
Всего голосов 18: ↑17 и ↓1 +16
Просмотры 6.4K
Комментарии 2

Перевод текста интервью с Юлианом Драгосом (Scala)

Блог компании Luxoft Scala *
Перевод
Тренер учебного центра Luxoft Training Назарий Шиманский взял интервью у Юлиана Драгоса — известного разработчика, внесшего большой вклад в развитие языка Scala. Предлагаем познакомиться с переводом интервью.
Юлинан занимается языком Scala с 2004 года, в это же время он начал работать в исследовательской лаборатории Мартина Одерски (Martin Odersky) в Федеральной политехнической школе Лозанны. Им была написана серверная часть (backend) виртуальной машины Java и оптимизатор байткода, а также он работал над различными частями компилятора. Кроме того, Юлиан реализовал для Scala специализацию с помощью типов.

В 2010 году Юлиан получил степень PhD в Федеральной политехнической школе Лозанны. Работал в компании Typesafe с момента ее основания Мартином Одерски, создателем языка Scala, занимаясь созданием средств разработки (в частности, написал плагин Eclipse для Scala). Затем возглавил группу Spark в компании Lightbend (прежнее название – Typesafe) и внес значительный вклад в развитие этого проекта. Кроме того, он ведет учебные курсы и помогает клиентам в реализации Spark-проектов.
Читать текст интервью
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3.4K
Комментарии 3

Учиться можно увлекательно, учиться можно эффективно

Блог компании New Professions Lab Data Mining *Big Data *Машинное обучение *
Привет, Хабр! Поднимите руку те, кто уже подустал немного от этого шума, связанного с Big Data?

Мне тоже кажется, что эта тема всем слегка поднадоела уже. Каждую неделю по этой теме вываливается большое количество статей на Хабре, на Medium, на Facebook, на LinkedIn, на куче других тематических сайтов, которые присылают письма на почтовый ящик. Каждый желает поделиться своим опытом, своими мыслями, своими планами, делая этот поток информации невыносимым.
Читать дальше →
Всего голосов 15: ↑6 и ↓9 -3
Просмотры 3.8K
Комментарии 7

«Big Data — это понятно и просто» — интервью с руководителем проектов по большим данным в QIWI Сергеем Чеканским

Блог компании New Professions Lab Data Mining *Big Data *Машинное обучение *
Recovery mode
Хабр, привет! Мы взяли интервью у выпускника программы «Специалист по большим данным», руководителя проектов по машинному обучению и большим данным в компании QIWI, Сергея Чеканского, в рамках которого Сергей рассказал об опыте разработки и внедрения кластеров big data, типичном дне Data Scientist-a, а также дал практические советы начинающим аналитикам.

image
Читать дальше →
Всего голосов 16: ↑10 и ↓6 +4
Просмотры 11K
Комментарии 0

Конфигурирование Spark на YARN

Блог компании New Professions Lab Open source *Data Mining *Big Data *Машинное обучение *
Recovery mode
Хабр, привет! Вчера на митапе, посвященном Apache Spark, от ребят из Rambler&Co, было довольно много вопросов от участников, связанных с конфигурированием этого инструмента. Решили по его следам поделиться своим опытом. Тема непростая — поэтому предлагаем делиться опытом тоже в комментариях, может быть, мы тоже что-то не так понимаем и используем.
Читать дальше →
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 11K
Комментарии 7

Apache Spark как ядро проекта. Часть 2. Streaming, и на что мы напоролись

Big Data *Hadoop *
Привет коллеги. Да, не прошло и три года с первой статьи, но проектная пучина отпустила только сейчас. Хочу с вами поделиться своими соображениями и проблемами касательно Spark streaming в связке с Kafka. Возможно среди вас есть люди с успешным опытом, поэтому буду рад пообщаться в комментариях.

Читать дальше →
Всего голосов 10: ↑10 и ↓0 +10
Просмотры 8.5K
Комментарии 9