Pull to refresh

Вебинар «Разворачиваем приложение на Spark в Kubernetes» 4 февраля от Mail.ru Group

VK corporate blog Apache *Big Data *DevOps *Kubernetes *
Recovery mode


Для частого запуска приложений на Spark, особенно в промышленной эксплуатации, необходимо максимально упростить сам процесс регулярного запуска Spark-задач, а также уметь гибко настраивать их конфигурации. В этом поможет современный DevOps-подход к работе со Spark, связанный с использованием Kubernetes.

4 февраля (четверг) приглашаем вас принять участие в вебинаре «Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт», где даже начинающие научатся обрабатывать данные с помощью Spark в облаке. Присоединяйтесь!
Подробнее о вебинаре
Total votes 7: ↑6 and ↓1 +5
Views 1.2K
Comments 0

Arenadata выпустила новый продукт для обмена данными между Greenplum и Spark

Arenadata corporate blog Big Data *Data storages *Distributed systems *Data Engineering *
image

Компания Arenadata выпустила инструмент для обмена данными между Arenadata DB (аналитической MPP-СУБД на базе Greenplum) и Apache Spark (фреймворком для распределенной обработки данных, входящим в экосистему Hadoop) — ADB-Spark Connector. Продукт предназначен для высокоскоростной и параллельной передачи информации между Spark и Arenadata DB.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 789
Comments 2

14 апреля приглашаем на Ozon Tech ML Meetup

Ozon Tech corporate blog Big Data *Machine learning *Conferences Data Engineering *

Привет, Хабр! Меня зовут Ван, я возглавляю отдел машинного обучения и матчинга торговой площадки Ozon. В нашем IT работает более ста DS-специалистов, чьи алгоритмы ежедневно обрабатывают сотни терабайтов данных для решения важных бизнес-задач и не только. В процессе работы наших алгоритмов задействованы Python, Scala, Go, Hadoop, Spark, PostgreSQL, Kafka и ещё много разных хранилищ и фреймворков.

Чаще всего цели наших ML-алгоритмов в IT-индустрии пересекаются, но технологические траектории достижения результата могут значимо отличаться. На встрече мы поделимся опытом и с коллегами из Яндекс Маркета, AliExpress Россия и Циан выступим с докладами:

— Spark Streaming: в погоне за оптимальной утилизацией и прозрачностью на Hadoop

— Го обсудим: продакшен ML на Golang

— Платформенные решения. Решаем проблемы жизненного цикла ML-сервиса

— Как мы перестали бояться иероглифов и полюбили китайскую инфраструктуру

После докладов на круглом столе обсудим процессы и роли в ML-командах крупных IT-компаний.

14 апреля в 17:00 заглядывайте на наш ML Meetup (онлайн и оффлайн). 

Узнать программу
Total votes 10: ↑9 and ↓1 +8
Views 1.6K
Comments 0

ejabberd+AD+Shared Roster

Lumber room
Доброго времени суток.

Для начала что мы имеем: небольшую сеть на ~150 машин, в основном с ОС Windows XP, домен, поднятый естественно на Windows 2k3 и нормальную машинку(или сервер) на которой установлен gentoo linux (опционально MySQL).

Задача: Установить jabber сервер, сделать общий ростер, с группами из AD, прикрепить к нему icq гейт и поставить jabber клиенты на рабочие машины.
Читать дальше
Total votes 12: ↑12 and ↓0 +12
Views 2.4K
Comments 6

12 лучших практик ASP.NET MVC

.NET *
Translation
imageОт переводчика: здесь приведены 12 неплохих практик, которые автор рекомендует использовать при разработке приложений ASP.NET MVC. Я решил перевести этот короткий список для тех, кто только присматривается к ASP.NET MVC и делает в этом фреймворке первые шаги. Надеюсь, данные советы помогут получше понять архитектуру ASP.NET MVC и принять правильные решения при разработке проектов. Некоторые советы спорны, но не забывайте, что автор выражает свое мнение, которое может не совпадать с вашим.
Читать дальше →
Total votes 46: ↑28 and ↓18 +10
Views 12K
Comments 11

13й Подкаст Петербургской Группы Alt.Net

Lumber room

About MVCContrib



Участники

Новости

Основная тема
Читать дальше →
Total votes 18: ↑9 and ↓9 0
Views 353
Comments 2

Spark: дата-майнинг до 30x быстрее Hadoop

Data Mining *Hadoop *
В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в кластерах. На некоторых задачах он превосходит Hadoop в 10-30 раз, сохраняя при этом масштабируемость и надёжность MapReduce.

Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются, например, в системах машинного обучения. Собственно, для этих двух задач проект и создавался. Но Spark превосходит Hadoop не только в системах машинного обучения, но и в традиционных приложениях по обработке данных.
Читать дальше →
Total votes 29: ↑26 and ↓3 +23
Views 9.9K
Comments 7

Bash-скрипт для искрографиков

*nix *
Искрографик (англ. sparkline) — это термин, который придумал Эдвард Тафти для обозначения миниатюрных (word-sized), но информационно-плотных графиков. Они показывают общую картину там, где нет места для размещения нормальных графиков с осями координат. Особенно полезными могут быть в таких областях как финансы и трейдинг, спортивные события, научный и медицинский анализ, системное администрирование.



Зак Холман (Zach Holman) из Github написал shell-скрипт Spark, который строит инфографику простой командой spark прямо из шелла (достаточно добавить скрипт куда-нибудь в $PATH).
Читать дальше →
Total votes 86: ↑80 and ↓6 +74
Views 3K
Comments 17

Связываем Active Directory, Asterisk и OpenFire

Development of communication systems *
Sandbox

Дружим между собой Active Directory, сервер IP телефонии Asterisk и Jabber-сервер OpenFire.



Не буду касаться установки всего по отдельности – все неплохо описано и работает в индивидуальном порядке весьма замечательно. Напишу, как я объединял все это вместе, на что наткнулся и что у меня получилось.

Читать дальше →
Total votes 31: ↑30 and ↓1 +29
Views 65K
Comments 15

Обзор китайских планшетов Ainol Spark и Ainol Venus: Цена vs Качество

Rozetked corporate blog


Люди всегда гонятся за ценой (и это логично), но им нужно и качество.

Все прекрасно знают о китайской продукции, но все боятся покупать ее. В большинстве своем «made in China» это действительно товар не лучшего качества, но сейчас есть бренды, достойные как минимум уважения. А признания? А признание они уже получили. Это, например, ZTE, Meizu, Lenovo, Xiaomi.

Возможно, скоро к этому числу примкнет Ainol. На днях ко мне в руки попали два планшета этой компании, и, знаете, я удивился… и цене, и качеству.
Читать дальше →
Total votes 9: ↑8 and ↓1 +7
Views 47K
Comments 17

Highscreen выпустил самые дешевые смартфоны с 2- и 4-ядерными процессорами

SmartGadget corporate blog
Получил сегодня пресс-релиз о двух новых смартфонах Highscreen – Spark и Omega Q. Первый стоит 4 тысячи рублей, второй – 9 тысяч. При этом первый, по заявлению указанного бренда, является «самым дешевым в России аппаратом с двухъядерным процессором», а второй – «самым дешевым с четырехъядерным»
Так ли это?
Total votes 34: ↑20 and ↓14 +6
Views 35K
Comments 52

Hadoop: что, где и зачем

Big Data *Hadoop *


Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать дальше →
Total votes 61: ↑58 and ↓3 +55
Views 403K
Comments 26

Apache Spark: что там под капотом?

Data Mining *Big Data *Hadoop *

Вступление


В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.
Читать дальше →
Total votes 25: ↑22 and ↓3 +19
Views 48K
Comments 12

Обзор докладов конференции QCon London 2015

Badoo corporate blog Website development *
Привет, меня зовут Макс Матюхин, я PHP-программист в компании Badoo. В прошлом месяце в Лондоне прошла очередная Международная конференция разработчиков QCon 2015. Я побывал на ней и теперь хочу поделиться с вами своими впечатлениями о мероприятии и рассказать о самых интересных, на мой взгляд, выступлениях. Из этой статьи вы узнаете чуть больше про архитектуру Uber, Spotify, CloudFlare, а также о том, как Google управляет своей инфраструктурой и многом другом.

Впервые QCon состоялась в 2007 году в Лондоне и Сан-Франциско. С тех пор она стабильно набирает популярность и расширяет географию, и в этом году она пройдет в 8 городах. Лондонская QCon проходит в самом сердце британской столицы, в двух шагах от Вестминстерского Аббатства. В разное время на QCon выступали такие известные личности, как Martin Fowler, Kent Beck, Erik Meijer, Steve Vinoski, Joe Armstrong, Rich Hickey и многие другие.
Читать дальше →
Total votes 24: ↑22 and ↓2 +20
Views 6K
Comments 0

Анализ данных на Scala. Считаем корреляцию 21-го века

Retail Rocket corporate blog Data Mining *Scala *Big Data *Hadoop *

Очень важно выбрать правильный инструмент для анализа данных. На форумах Kaggle.com, где проводятся международные соревнования по Data Science, часто спрашивают, какой инструмент лучше. Первые строчки популярноcти занимают R и Python. В статье мы расскажем про альтернативный стек технологий анализа данных, сделанный на основе языка программирования Scala и платформы распределенных вычислений Spark.

Как мы пришли к этому? В Retail Rocket мы много занимаемся машинным обучением на очень больших массивах данных. Раньше для разработки прототипов мы использовали связку IPython + Pyhs2 (hive драйвер для Python) + Pandas + Sklearn. В конце лета 2014 года приняли принципиальное решение перейти на Spark, так как эксперименты показали, что мы получим 3-4 кратное повышение производительности на том же парке серверов.
Подробности
Total votes 21: ↑20 and ↓1 +19
Views 21K
Comments 21

«Разрывая ETL барьеры с помощью Spark Streaming» от Concur. Отчет о встрече

System Analysis and Design *Big Data *
Sandbox
Посетил сегодня встечу на тему «Breaking ETL barrier with Spark Streaming and Real Time Txn Volume Forecasting» и решил записать путевые заметки. Заметки получились немного циничные, но, надеюсь, интересные.



Встреча была организована компанией Concur, которая в основном работает на корпоративных клиентов, предоставляя им набор финансово-«туристических» услуг. Материл был интересный, уровень — легкий, обзор будет короткий.

Вкратце, смысл в том, чтобы заменить ETL на такое же примерно количество процессов, которые читают транзакционные логи и посылают их через Kafka в Spark Streaming, где они могут быть «лучше обработаны и проанализированны», и дальше сложены в OLAP (как и раньше). То есть это, по сути ETL, но real time, а не пакетный, и более программируемый.
Подробности
Total votes 13: ↑12 and ↓1 +11
Views 9.2K
Comments 5

Открыт приём заявок на грант Microsoft Research на облачные ресурсы Azure для научных исследований из России

Microsoft corporate blog Microsoft Azure *
Открылся приём заявок на грант на облако Azure для научных исследований. Он продлится до 15 августа 2015 года, и внутри гранта — около 200.000 часов вычислений, 20 тб хранилища и доступ к таким сервисам, как ML, HDInsight (Hadoop & Spark) и др.

Например, Илья Серых из Института Океанологии РАН им. Ширшова, выигравший Skolkovo Science Focus, использует облако Azure, теорию хаоса и климатические модели, и планирует доказать, что предсказать климат реально. Это требует расчётов, который длится до нескольких месяцев; требуются надёжные и мощные ресурсы, которые и будут браться в облаке.



Регистрируйтесь и вы.
Total votes 16: ↑12 and ↓4 +8
Views 3.9K
Comments 9

DMP часть 1. Микросегментирование аудитории с помощью ключевых слов

Targetix corporate blog High performance *Website development *Big Data *
Авторы статьи: Данила Перепечин DanilaPerepechin, Дмитрий Чеклов dcheklov.

Здравствуйте.
Data management platform (DMP) — это наша любимая тема во всей истории про онлайн рекламу. RTB is all about the data.
В продолжение цикла рассказов о технологическом стеке Targetix (SSP, DSP), сегодня я опишу один из инструментов, входящих
в DMP — Keyword Builder.


Читать дальше →
Total votes 12: ↑10 and ↓2 +8
Views 15K
Comments 20

Data Science Week — микроанонс для тех, кто еще не знает

Data Mining *Big Data *
    Логично, что в последнее время количество разного рода конференций и прочих публичных мероприятий в сфере анализа данных резко выросло. Наверняка многие уже слышали про OpenData или PyData, а кто-то, наверняка, даже бывал на них. Но все мы прекрасно знаем, что выпросить у руководства возможность поехать на конференцию (даже при условии выступления на ней) — задача нетривиальная. Проблема в том, что большинство таких встреч происходит где-нибудь в Штатах (например, в Техасе) или в какой-нибудь Швеции, поэтому бюджет на поездку, особенно в рамках кризиса, не всякая контора позволит себе выделить.

    В России, однако же, есть положительная тенденция — многие проявляют инициативу и проводят подобного рода мероприятия своими силами. Пусть даже это не всегда глобальные конференции, а больше камерные встречи, но все же MDS и MIDSM с каждым разом собирают все больше заинтересованных людей. И подобные встречи, кстати, бывают не только в Москве.
Читайте, Шура, читайте
Total votes 12: ↑11 and ↓1 +10
Views 8.3K
Comments 6

«Bigdata Conference» — крупнейшая конференция по большим данным уже очень скоро

Битрикс24 corporate blog Big Data *Machine learning *
Коллеги, оглянитесь вокруг!

«Большие данные» гораздо ближе к вам и их сильно больше, чем кажется. Несмотря на обилие мероприятий на данную тему, мало кто, «между нами девочками говоря», владеет темой. А чтобы выжать пользу и деньги из информации — нужно очень хорошо разбираться..., именно — в тонкостях.

Технология «отжима больших данных» грубо делится на два, очень очень разных пласта — инженерный и алгоритмический. В первом монолите программное обеспечение пока довольно сырое, бурно развивается, от чего у разработчиков, простыми словами, уже «едет крыша»: приходится разбираться в инструментах от «старого доброго» Hadoop с HDFS, активно используя Hive, Impala, Presto, Vertica и прочая и прочая… и, чтобы не отстать от конкурентов, ювелирно владеть секретами Apache Spark, сваянного на прекрасной лаконичной Scala.

Читать дальше →
Total votes 18: ↑12 and ↓6 +6
Views 5.3K
Comments 0