Pull to refresh
  • by relevance
  • by date
  • by rating

В Облака на Zeppelin: опыт создания облачного сервиса Mail.Ru Group

VK corporate blog


Мы начали работать над Облаком Mail.Ru в июне 2012. За полтора года мы прошли долгий и тернистый путь от первого прототипа до публичного сервиса, выдерживающего нагрузки свыше 60 Гбит/с. Сегодня мы хотим поделиться с вами рассказом о том, как это было.
Читать дальше →
Total votes 122: ↑82 and ↓40 +42
Views 23K
Comments 54

AMD анонсировала 32-ядерный серверный процессор Naples

Computer hardware CPU IT-companies

Двухпроцессорный сервер AMD Naples поддерживает до 4 ТБ оперативной памяти (по 16 модулей DIMM на процессор), обмен данными между памятью и одним ЦП происходит на скорости 170 ГБ/с

Две недели назад компания AMD представила семейство десктопных процессоров Ryzen 7, которые уже поступили в продажу. Вторым этапом применения архитектуры Zen должны стать серверные процессоры, а третьим этапом — мобильные APU со встроенными видеоускорителями.

Сейчас пришло время для этапа № 2. На серверном рынке и в дата-центрах AMD собирается так же всколыхнуть рынок и потеснить гегемонию Intel Xeon, как она сделала с десктопными процессорами. Вчера AMD анонсировала высокопроизводительные серверные процессоры Naples на той же архитектуре Zen x86.
Читать дальше →
Total votes 41: ↑39 and ↓2 +37
Views 27K
Comments 88

Считаем статистику по экспериментам на hh.ru

HeadHunter corporate blog Web analytics *Product Management *Statistics in IT
Всем привет!

Сегодня я расскажу вам, как мы в hh.ru считаем ручную статистику по экспериментам. Мы посмотрим откуда появляются данные, как мы их обрабатываем и на какие подводные камни натыкаемся. В статье я поделюсь общими архитектурой и подходом, реальных скриптов и кода будет по минимуму. Основная аудитория — начинающие аналитики, которым интересно, как устроена инфраструктура анализа данных в hh.ru. Если данная тема будет интересна — пишите в комментариях, можем углубиться в код в следующих статьях.

О том, как считаются автоматические метрики по А/Б-экспериментам, можно почитать в нашей другой статье.

image
Читать дальше →
Total votes 28: ↑28 and ↓0 +28
Views 6K
Comments 14

Big Data Tools EAP 10: SSH-туннели, фильтрация приложений, пользовательские модули и многое другое

JetBrains corporate blog Java *Scala *Big Data *

Только что вышла очередная версия плагина Big Data Tools — плагина для IntelliJ IDEA Ultimate, DataGrip и PyCharm, который обеспечивает интеграцию с Hadoop и Spark, позволяет редактировать и запускать интерактивные блокноты в Zeppelin.


Основная задача этого релиза — поправить как можно больше проблем и улучшить плагин изнутри, но два важных улучшения видно невооруженным глазом:


  • соединяться с Hadoop и Spark теперь можно через SSH-туннели, создающиеся парой щелчков мыши;
  • мониторинг Hadoop может ограничивать объем данных, загружаемых при просмотре списка приложений.

Читать дальше →
Total votes 13: ↑12 and ↓1 +11
Views 1.5K
Comments 0

ZTools для Apache Zeppelin

JetBrains corporate blog Java *Scala *Big Data *

Zeppelin — это интерактивный блокнот, очень полюбившийся дата-инженерам. Он умеет работать со Spark и отлично подходит для интерактивного анализа данных.


Проект недавно добрался до версии 0.9.0-preview2 и активно развивается, но, тем не менее, множество вещей всё ещё не реализованы и ждут своего часа.


Одна из таких вещей — API для получения дополнительной информации о том, что происходит внутри блокнота. С одной стороны, там имеется API, который полностью решает задачи по высокоуровневому управлению ноутбуками. Но если вам нужно что-то нетривиальное — плохие новости.


Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 1.6K
Comments 3

ZTools for Apache Zeppelin

JetBrains corporate blog Java *Scala *Big Data *



Zeppelin is a web-based notebook for data engineers that enables data-driven, interactive data analytics with Spark, Scala, and more.


The project recently reached version 0.9.0-preview2 and is being actively developed, but there are still many things to be implemented.


One such thing is an API for getting comprehensive information about what's going on inside the notebook. There is already an API that completely solves the problems of high-level notebook management, but it doesn’t help if you want to do anything more complex.

Read more →
Total votes 3: ↑3 and ↓0 +3
Views 778
Comments 0

Big Data Tools Update 11 Is Out

JetBrains corporate blog Java *Scala *Big Data *

EAP 11 of the Big Data Tools plugin for IntelliJ IDEA Ultimate, PyCharm, and DataGrip is available starting today. You can install it from the JetBrains Plugin Repository or inside your IDE.


Big Data Tools is a new JetBrains plugin that allows you to connect to Hadoop and Spark clusters and monitor nodes, applications, and jobs. It also brings support for editing and running Zeppelin notebooks inside IntelliJ IDEA and DataGrip, so you can create, edit, and run Zeppelin notebooks without ever having to leave your favorite IDE. The plugin offers smart navigation, code completion, inspections, quick-fixes, and refactoring inside notebooks.


Read more →
Total votes 7: ↑7 and ↓0 +7
Views 1.1K
Comments 0

Big Data Tools EAP 11: Zeppelin в DataGrip и spark-submit во всех поддерживаемых IDE

JetBrains corporate blog Java *Scala *Big Data *

Только что вышло очередное обновление EAP 11 для плагина под названием Big Data Tools, доступного для установки в IntelliJ IDEA Ultimate, PyCharm, and DataGrip. Можно установить его через страницу плагина на сайте или внутри IDE.


Big Data Tools — это плагин, позволяющий соединяться с кластерами Hadoop и Spark. Он предоставляет мониторинг узлов, приложений и отдельных задач. Кроме того, в IDEA и DataGrip можно создавать, запускать и редактировать ноутбуки Zeppelin. Можно не переключаться на веб-интерфейс Zeppelin и спокойно работать, не выходя из любимого IDE. Плагин позволяет удобно перемещаться по коду, делать умное автодополнение, рефакторинги и квик-фиксы прямо внутри ноутбука.


Читать дальше →
Total votes 11: ↑10 and ↓1 +9
Views 1.2K
Comments 2

Big Data Tools EAP 12: экспериментальная поддержка Python, поиск по ноутбукам в Zeppelin

JetBrains corporate blog Python *Scala *Big Data *

Только что вышло очередное обновление EAP 12 для плагина под названием Big Data Tools, доступного для установки в IntelliJ IDEA Ultimate, PyCharm Professional и DataGrip. Можно установить его через страницу плагина или внутри IDE. Плагин позволяет работать с Zeppelin, загружать файлы в облачные хранилища и проводить мониторинг кластеров Hadoop и Spark.


В этом релизе мы добавили экспериментальную поддержку Python и поиск по ноутбукам Zeppelin. Если вы страдали от каких-то багов, их тоже починено множество. Давайте поговорим об этих изменениях более подробно.


Читать дальше →
Total votes 7: ↑7 and ↓0 +7
Views 1.1K
Comments 0

Как мы автоматизировали выгрузки и другие Ad-hoc задачи аналитика с помощью Zeppelin

Кошелёк corporate blog IT Infrastructure *Mobile App Analytics *IT-companies Data Engineering *

На момент написания этой статьи в компании Cardsmobile, которая разрабатывает мобильное приложение «Кошелёк», работает 195 человек: 8 аналитиков и 187 потенциальных заказчиков аналитиков. Мы делаем приложение для конечных пользователей, а также работаем с ритейлом, банками, брендами и другими партнерами. Долгое время работа аналитика в Кошельке состояла не только из исследований поведения пользователя, но и из различных выгрузок, типовых анализов для партнеров и прогнозов для потенциальных клиентов. Конечно, дашборды сильно спасали нам жизнь и позволяли всей компании следить за показателями продукта. Но мы всё ещё тратили время на остальную текучку, и с ростом команды (заказчиков) и бизнеса упёрлись: Ad-hoc задач стало слишком много, а исследования, желание развиваться и светлое будущее простаивали в отсутствие у нас времени.

Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 3.2K
Comments 6

Big Data Tools 1.0

JetBrains corporate blog Programming *Big Data *

На днях вышло очередное обновление плагина Big Data Tools. Почти полтора года мы выпускали только Early Access Preview, и сейчас мы рады представить вам самую первую версию, рассчитанную на широкую аудиторию.

Big Data Tools — это плагин, позволяющий подключаться к кластерам Hadoop и Spark. Он предоставляет возможность мониторинга узлов, приложений и отдельных задач. Кроме того, можно создавать, запускать и редактировать ноутбуки Zeppelin. Вы можете не переключаться на веб-интерфейс Zeppelin и продолжать спокойно работать из любимой IDE. Плагин обеспечивает удобную навигацию по коду, умное автодополнение, рефакторинги и квик-фиксы прямо внутри ноутбука. Плагин доступен для установки в IntelliJ IDEA Ultimate, PyCharm и DataGrip. Вы можете скачать его со страницы плагина на сайте либо установить прямо из IDE.

Давайте подробней рассмотрим, что же изменилось в новой версии.

Читать далее
Total votes 7: ↑7 and ↓0 +7
Views 1.9K
Comments 0

Обзор плагина Big Data Tools

JetBrains corporate blog Programming *Big Data *Data Engineering *

Храните файлы в облачных файловых системах или, может быть, используете Hadoop, Spark и Zeppelin? А пробовали ли вы работать с ними напрямую из IDE?

Привет, меня зовут Олег, я из команды плагина Big Data Tools. В этой статье мы поговорим, зачем этот плагин нужен, как применяется и где его достать. За последний год плагин прошёл большой путь и из экспериментального продукта превратился в боевое решение, на которое стоит взглянуть специалистам по Big Data.

В JetBrains мы создаем IDE и другие инструменты, которые делают жизнь разработчиков лучше. Big Data Tools — это очень узкоспециализированный, редкоземельный плагин, который предназначен для конкретного вида разработчиков — для дата-инженеров.

Если вам интересно подробней узнать о мире Big Data и работе дата-инженеров, рекомендую развернутую серию статей Паши Финкельштейна. Здесь мы рассмотрим одну из самых популярных схем.

Читать далее
Total votes 6: ↑5 and ↓1 +4
Views 2K
Comments 11

Big Data Tools with IntelliJ IDEA Ultimate, PyCharm Professional, DataGrip 2021.3 EAP, and DataSpell Support

JetBrains corporate blog Programming *Big Data *Data Engineering *

Recently we released a new build of the Big Data Tools plugin that is compatible with the 2021.3 versions of IntelliJ IDEA and PyCharm. DataGrip 2021.3 support will be available immediately after the release in October. The plugin also supports our new data science IDE – JetBrains DataSpell. If you still use previous versions, now is the perfect time to upgrade both your IDE and the plugin. 

This year, we introduced a number of new features as well as some features that have been there for a while, for example, running Spark Submit with a run configuration.

Here’s a list of the key improvements:

Read more
Rating 0
Views 586
Comments 0

Плагин Big Data Tools теперь поддерживает IntelliJ IDEA Ultimate, PyCharm Professional, DataGrip 2021.3 EAP и DataSpell

JetBrains corporate blog Programming *Big Data *Data Engineering *

Недавно мы выпустили новую сборку плагина Big Data Tools, совместимую со свежими (2021.3) версиями IntelliJ IDEA Ultimate и PyCharm Professional. Когда в октябре выйдет DataGrip 2021.3, эта сборка тоже будет с ним работать. Более того, теперь мы умеем запускаться в DataSpell — новой IDE для Data Science.

Если вы используете старые версии Big Data Tools, сейчас самое время обновиться и попробовать новую версию плагина вместе со свежей версией IDE!

В этом году мы много чего улучшили и добавили совершенно новые фичи (например, запуск Spark Submit в виде Run Configuration). Вот небольшой список изменений за этот год. Этот список — лишь небольшая капля в море того, что изменилось с прошлого года.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 1.4K
Comments 0