Pull to refresh
  • by relevance
  • by date
  • by rating

Вебинар «Разворачиваем приложение на Spark в Kubernetes» 4 февраля от Mail.ru Group

VK corporate blog Apache *Big Data *DevOps *Kubernetes *
Recovery mode


Для частого запуска приложений на Spark, особенно в промышленной эксплуатации, необходимо максимально упростить сам процесс регулярного запуска Spark-задач, а также уметь гибко настраивать их конфигурации. В этом поможет современный DevOps-подход к работе со Spark, связанный с использованием Kubernetes.

4 февраля (четверг) приглашаем вас принять участие в вебинаре «Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт», где даже начинающие научатся обрабатывать данные с помощью Spark в облаке. Присоединяйтесь!
Подробнее о вебинаре
Total votes 7: ↑6 and ↓1 +5
Views 903
Comments 0

Arenadata выпустила новый продукт для обмена данными между Greenplum и Spark

Arenadata corporate blog Big Data *Data storages *Distributed systems *Data Engineering *
image

Компания Arenadata выпустила инструмент для обмена данными между Arenadata DB (аналитической MPP-СУБД на базе Greenplum) и Apache Spark (фреймворком для распределенной обработки данных, входящим в экосистему Hadoop) — ADB-Spark Connector. Продукт предназначен для высокоскоростной и параллельной передачи информации между Spark и Arenadata DB.
Читать дальше →
Total votes 5: ↑5 and ↓0 +5
Views 414
Comments 2

ejabberd+AD+Shared Roster

Lumber room
Доброго времени суток.

Для начала что мы имеем: небольшую сеть на ~150 машин, в основном с ОС Windows XP, домен, поднятый естественно на Windows 2k3 и нормальную машинку(или сервер) на которой установлен gentoo linux (опционально MySQL).

Задача: Установить jabber сервер, сделать общий ростер, с группами из AD, прикрепить к нему icq гейт и поставить jabber клиенты на рабочие машины.
Читать дальше
Total votes 12: ↑12 and ↓0 +12
Views 2.1K
Comments 6

12 лучших практик ASP.NET MVC

.NET *
Translation
imageОт переводчика: здесь приведены 12 неплохих практик, которые автор рекомендует использовать при разработке приложений ASP.NET MVC. Я решил перевести этот короткий список для тех, кто только присматривается к ASP.NET MVC и делает в этом фреймворке первые шаги. Надеюсь, данные советы помогут получше понять архитектуру ASP.NET MVC и принять правильные решения при разработке проектов. Некоторые советы спорны, но не забывайте, что автор выражает свое мнение, которое может не совпадать с вашим.
Читать дальше →
Total votes 46: ↑28 and ↓18 +10
Views 12K
Comments 11

13й Подкаст Петербургской Группы Alt.Net

Lumber room

About MVCContrib



Участники

Новости

Основная тема
Читать дальше →
Total votes 18: ↑9 and ↓9 0
Views 298
Comments 2

Spark: дата-майнинг до 30x быстрее Hadoop

Data Mining *Hadoop *
В Калифорнийском университете в Беркли разработали фреймворк Spark для распределённых вычислений в кластерах. На некоторых задачах он превосходит Hadoop в 10-30 раз, сохраняя при этом масштабируемость и надёжность MapReduce.

Увеличение производительности до 30х возможно на специфических задачах, в которых идёт постоянное обращение к одному и тому же набору данных. Например, это интерактивный дата-майнинг и итерационные алгоритмы, которые активно используются, например, в системах машинного обучения. Собственно, для этих двух задач проект и создавался. Но Spark превосходит Hadoop не только в системах машинного обучения, но и в традиционных приложениях по обработке данных.
Читать дальше →
Total votes 29: ↑26 and ↓3 +23
Views 9.7K
Comments 7

Bash-скрипт для искрографиков

*nix *
Искрографик (англ. sparkline) — это термин, который придумал Эдвард Тафти для обозначения миниатюрных (word-sized), но информационно-плотных графиков. Они показывают общую картину там, где нет места для размещения нормальных графиков с осями координат. Особенно полезными могут быть в таких областях как финансы и трейдинг, спортивные события, научный и медицинский анализ, системное администрирование.



Зак Холман (Zach Holman) из Github написал shell-скрипт Spark, который строит инфографику простой командой spark прямо из шелла (достаточно добавить скрипт куда-нибудь в $PATH).
Читать дальше →
Total votes 86: ↑80 and ↓6 +74
Views 2.8K
Comments 17

Связываем Active Directory, Asterisk и OpenFire

Development of communication systems *
Sandbox

Дружим между собой Active Directory, сервер IP телефонии Asterisk и Jabber-сервер OpenFire.



Не буду касаться установки всего по отдельности – все неплохо описано и работает в индивидуальном порядке весьма замечательно. Напишу, как я объединял все это вместе, на что наткнулся и что у меня получилось.

Читать дальше →
Total votes 31: ↑30 and ↓1 +29
Views 64K
Comments 15

Обзор китайских планшетов Ainol Spark и Ainol Venus: Цена vs Качество

Rozetked corporate blog


Люди всегда гонятся за ценой (и это логично), но им нужно и качество.

Все прекрасно знают о китайской продукции, но все боятся покупать ее. В большинстве своем «made in China» это действительно товар не лучшего качества, но сейчас есть бренды, достойные как минимум уважения. А признания? А признание они уже получили. Это, например, ZTE, Meizu, Lenovo, Xiaomi.

Возможно, скоро к этому числу примкнет Ainol. На днях ко мне в руки попали два планшета этой компании, и, знаете, я удивился… и цене, и качеству.
Читать дальше →
Total votes 9: ↑8 and ↓1 +7
Views 47K
Comments 17

Highscreen выпустил самые дешевые смартфоны с 2- и 4-ядерными процессорами

SmartGadget corporate blog
Получил сегодня пресс-релиз о двух новых смартфонах Highscreen – Spark и Omega Q. Первый стоит 4 тысячи рублей, второй – 9 тысяч. При этом первый, по заявлению указанного бренда, является «самым дешевым в России аппаратом с двухъядерным процессором», а второй – «самым дешевым с четырехъядерным»
Так ли это?
Total votes 34: ↑20 and ↓14 +6
Views 35K
Comments 52

Hadoop: что, где и зачем

Big Data *Hadoop *


Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать дальше →
Total votes 61: ↑58 and ↓3 +55
Views 366K
Comments 26

Apache Spark: что там под капотом?

Data Mining *Big Data *Hadoop *

Вступление


В последнее время проект Apache Spark привлекает к себе огромное внимание, про него написано большое количество маленьких практических статей, он стал частью Hadoop 2.0. Плюс он быстро оброс дополнительными фреймворками, такими, как Spark Streaming, SparkML, Spark SQL, GraphX, а кроме этих «официальных» фреймворков появилось море проектов — различные коннекторы, алгоритмы, библиотеки и так далее. Достаточно быстро и уверенно разобраться в этом зоопарке при отсутсвие серьезной документации, особенно учитывая факт того, что Spark содержит всякие базовые кусочки других проектов Беркли (например BlinkDB) — дело непростое. Поэтому решил написать эту статью, чтобы немножко облегчить жизнь занятым людям.
Читать дальше →
Total votes 25: ↑22 and ↓3 +19
Views 46K
Comments 12

Обзор докладов конференции QCon London 2015

Badoo corporate blog Website development *
Привет, меня зовут Макс Матюхин, я PHP-программист в компании Badoo. В прошлом месяце в Лондоне прошла очередная Международная конференция разработчиков QCon 2015. Я побывал на ней и теперь хочу поделиться с вами своими впечатлениями о мероприятии и рассказать о самых интересных, на мой взгляд, выступлениях. Из этой статьи вы узнаете чуть больше про архитектуру Uber, Spotify, CloudFlare, а также о том, как Google управляет своей инфраструктурой и многом другом.

Впервые QCon состоялась в 2007 году в Лондоне и Сан-Франциско. С тех пор она стабильно набирает популярность и расширяет географию, и в этом году она пройдет в 8 городах. Лондонская QCon проходит в самом сердце британской столицы, в двух шагах от Вестминстерского Аббатства. В разное время на QCon выступали такие известные личности, как Martin Fowler, Kent Beck, Erik Meijer, Steve Vinoski, Joe Armstrong, Rich Hickey и многие другие.
Читать дальше →
Total votes 24: ↑22 and ↓2 +20
Views 5.8K
Comments 0

Анализ данных на Scala. Считаем корреляцию 21-го века

Retail Rocket corporate blog Data Mining *Scala *Big Data *Hadoop *

Очень важно выбрать правильный инструмент для анализа данных. На форумах Kaggle.com, где проводятся международные соревнования по Data Science, часто спрашивают, какой инструмент лучше. Первые строчки популярноcти занимают R и Python. В статье мы расскажем про альтернативный стек технологий анализа данных, сделанный на основе языка программирования Scala и платформы распределенных вычислений Spark.

Как мы пришли к этому? В Retail Rocket мы много занимаемся машинным обучением на очень больших массивах данных. Раньше для разработки прототипов мы использовали связку IPython + Pyhs2 (hive драйвер для Python) + Pandas + Sklearn. В конце лета 2014 года приняли принципиальное решение перейти на Spark, так как эксперименты показали, что мы получим 3-4 кратное повышение производительности на том же парке серверов.
Подробности
Total votes 21: ↑20 and ↓1 +19
Views 21K
Comments 21

«Разрывая ETL барьеры с помощью Spark Streaming» от Concur. Отчет о встрече

System Analysis and Design *Big Data *
Sandbox
Посетил сегодня встечу на тему «Breaking ETL barrier with Spark Streaming and Real Time Txn Volume Forecasting» и решил записать путевые заметки. Заметки получились немного циничные, но, надеюсь, интересные.



Встреча была организована компанией Concur, которая в основном работает на корпоративных клиентов, предоставляя им набор финансово-«туристических» услуг. Материл был интересный, уровень — легкий, обзор будет короткий.

Вкратце, смысл в том, чтобы заменить ETL на такое же примерно количество процессов, которые читают транзакционные логи и посылают их через Kafka в Spark Streaming, где они могут быть «лучше обработаны и проанализированны», и дальше сложены в OLAP (как и раньше). То есть это, по сути ETL, но real time, а не пакетный, и более программируемый.
Подробности
Total votes 13: ↑12 and ↓1 +11
Views 8.9K
Comments 5

Открыт приём заявок на грант Microsoft Research на облачные ресурсы Azure для научных исследований из России

Microsoft corporate blog Microsoft Azure
Открылся приём заявок на грант на облако Azure для научных исследований. Он продлится до 15 августа 2015 года, и внутри гранта — около 200.000 часов вычислений, 20 тб хранилища и доступ к таким сервисам, как ML, HDInsight (Hadoop & Spark) и др.

Например, Илья Серых из Института Океанологии РАН им. Ширшова, выигравший Skolkovo Science Focus, использует облако Azure, теорию хаоса и климатические модели, и планирует доказать, что предсказать климат реально. Это требует расчётов, который длится до нескольких месяцев; требуются надёжные и мощные ресурсы, которые и будут браться в облаке.



Регистрируйтесь и вы.
Total votes 16: ↑12 and ↓4 +8
Views 3.8K
Comments 9

DMP часть 1. Микросегментирование аудитории с помощью ключевых слов

Targetix corporate blog High performance *Website development *Big Data *
Авторы статьи: Данила Перепечин DanilaPerepechin, Дмитрий Чеклов dcheklov.

Здравствуйте.
Data management platform (DMP) — это наша любимая тема во всей истории про онлайн рекламу. RTB is all about the data.
В продолжение цикла рассказов о технологическом стеке Targetix (SSP, DSP), сегодня я опишу один из инструментов, входящих
в DMP — Keyword Builder.


Читать дальше →
Total votes 12: ↑10 and ↓2 +8
Views 15K
Comments 20

Data Science Week — микроанонс для тех, кто еще не знает

Data Mining *Big Data *
    Логично, что в последнее время количество разного рода конференций и прочих публичных мероприятий в сфере анализа данных резко выросло. Наверняка многие уже слышали про OpenData или PyData, а кто-то, наверняка, даже бывал на них. Но все мы прекрасно знаем, что выпросить у руководства возможность поехать на конференцию (даже при условии выступления на ней) — задача нетривиальная. Проблема в том, что большинство таких встреч происходит где-нибудь в Штатах (например, в Техасе) или в какой-нибудь Швеции, поэтому бюджет на поездку, особенно в рамках кризиса, не всякая контора позволит себе выделить.

    В России, однако же, есть положительная тенденция — многие проявляют инициативу и проводят подобного рода мероприятия своими силами. Пусть даже это не всегда глобальные конференции, а больше камерные встречи, но все же MDS и MIDSM с каждым разом собирают все больше заинтересованных людей. И подобные встречи, кстати, бывают не только в Москве.
Читайте, Шура, читайте
Total votes 12: ↑11 and ↓1 +10
Views 8.2K
Comments 6

«Bigdata Conference» — крупнейшая конференция по большим данным уже очень скоро

1С-Битрикс corporate blog Big Data *Machine learning *
Коллеги, оглянитесь вокруг!

«Большие данные» гораздо ближе к вам и их сильно больше, чем кажется. Несмотря на обилие мероприятий на данную тему, мало кто, «между нами девочками говоря», владеет темой. А чтобы выжать пользу и деньги из информации — нужно очень хорошо разбираться..., именно — в тонкостях.

Технология «отжима больших данных» грубо делится на два, очень очень разных пласта — инженерный и алгоритмический. В первом монолите программное обеспечение пока довольно сырое, бурно развивается, от чего у разработчиков, простыми словами, уже «едет крыша»: приходится разбираться в инструментах от «старого доброго» Hadoop с HDFS, активно используя Hive, Impala, Presto, Vertica и прочая и прочая… и, чтобы не отстать от конкурентов, ювелирно владеть секретами Apache Spark, сваянного на прекрасной лаконичной Scala.

Читать дальше →
Total votes 18: ↑12 and ↓6 +6
Views 5.2K
Comments 0

Apache Spark как ядро проекта. Часть 1

Java *Big Data *
Привет, коллеги.

С недавнего времени у нас на проекте появился Spark. В процессе разработки мы сталкиваемся с множеством трудностей, и узнаём много нового. Хочется для себя систематизировать эти знания, и за одно поделиться ими с окружающими. Поэтому я решил написать цикл статей про использование Apache Spark. Эта статья первая, и она будет вводной.
Читать дальше →
Total votes 17: ↑15 and ↓2 +13
Views 32K
Comments 24