Neoflex, Москва - Создаем ИТ-платформы для цифровой трансформации / Статьи / Хабр

Как стать автором

Компания Neoflex временно не ведёт блог на Хабре

Статьи 73Посты

neoflex 15 янв в 12:02

Особенности партиционирования в PostgreSQL и Apache Hive

11 мин

6K

Блог компании NeoflexPostgreSQL*SQL*

Туториал

Часто специалисты, работающие с классическими реляционными базами данных, например, с PostgreSQL, испытывают затруднения в работе при переходе на систему хранения больших данных типа Apache Hive. Это связано с непониманием того, как можно использовать в новой среде уже наработанные подходы и методы работы с данными.

В данной статье рассмотрены некоторые особенности использования языка SQL в реляционных СУБД и Apache Hive. Кроме того, проведен сравнительный обзор возможностей и подходов, а также применение партиционирования на практике.

Материал будет полезен специалистам младших и средних грейдов, которые используют в своей практике SQL, но имеют мало опыта в Hive или Postgres.

Читать далее

+2

neoflex 19 дек 2023 в 12:21

Как оценить эффект от внедрения проекта?

Простой

27 мин

2.8K

Блог компании NeoflexPython*Машинное обучение*Статистика в IT

Целью любого проекта, будь то разработка сайта, внедрение искусственного интеллекта или модернизация оборудования, является получение бизнес-результата. Поэтому для клиента важно понимать, какую выгоду он получит от внедрения проекта и как это отразится на его прибыли. Кроме того, разработчикам также необходимо оценить эффект от проекта по нескольким причинам: увеличение вероятности получения новых проектов, лучшее понимание потребностей клиента, повышение рыночной стоимости и моральное удовлетворение от значимости своей работы.

В статье показано применение таких методов оценки эффекта от внедрения проекта, как AБ-тестирование (классический подход, стратификация, CUPED), альтернативное прогнозирование, синтетический контроль и мэтчинг.

Читать далее

+9

neoflex 14 дек 2023 в 12:14

Оптимизация хранения данных в Greenplum

8 мин

4.4K

Блог компании NeoflexPostgreSQL*SQL*Сжатие данных*

Туториал

В мире современной аналитики данных, где информация – это ключевой актив организации, база данных должна быть не только масштабируемой, но и высокоэффективной. В этом контексте Greenplum, мощная и распределенная система управления базами данных, стоит в центре внимания. Greenplum предоставляет подходящие возможности для хранения и анализа огромных объемов данных, но, чтобы добиться максимальной производительности и оптимальной управляемости, необходимо грамотно оптимизировать хранение данных.

Данная статья в первую очередь для тех, кто только начинает знакомство с оптимизацией в Greenplum и хочет разобраться на что стоит обратить внимание в первую очередь. Будут рассмотрены три ключевых аспекта: компрессию данных, распределение и партиционирование. Узнаем – как правильно применять эти стратегии, чтобы улучшить производительность запросов, снизить потребление ресурсов и повысить эффективность работы базы данных.

Читать далее

+2

neoflex 11 дек 2023 в 11:31

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Средний

19 мин

5K

Блог компании NeoflexPostgreSQL*SQL*Статистика в IT

Туториал

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость y_i = f(x_i), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x₁, y₁), (x₂, y₂) … (x_n, y_n), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=x_i будут близки к экспериментальным данным. Приближение функции f(x_i) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(x_i).

Читать далее

+8

neoflex 7 ноя 2023 в 15:50

Опыт внедрения UI CMAK для управления кластерами Kafka

3 мин

2.1K

Блог компании NeoflexOpen source*Apache*

Apache Kafka – это платформа для обработки потоков данных в реальном времени, которая позволяет эффективно передавать и обрабатывать огромные объемы данных. Не погруженным в технологию пользователям сложно настраивать и осуществлять мониторинг Kafka без специализированных инструментов с графическим интерфейсом.

В этой статье мы поделимся опытом внедрения такого инструмента и расскажем про CMAK.

Читать далее

+2

neoflex 3 ноя 2023 в 17:12

Как расширить компетенции аналитиков при работе с Big Data

Средний

5 мин

4.7K

Блог компании NeoflexSQL*Big Data*

Мнение

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.

Читать далее

+1

neoflex 13 окт 2023 в 14:27

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Средний

11 мин

1.6K

Блог компании NeoflexPython*Google Cloud Platform*Облачные сервисы*

Обзор

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Данный материал будет описывать опыт нашей команды по построению end-to-end рекомендательной ML-системы визуального поиска похожих товаров с помощью инструментов, предоставляемых облачной платформой Google Cloud Platform (далее – GCP) и структурно будет состоять из трех частей, описывающих три этапа разработки: от простой реализации задачи к более сложной, или точнее – из двух с половиной, так как второй этап оказался не жизнеспособным, но обо всем по порядку.

Читать далее

+1

merely_dev 12 окт 2023 в 14:45

Основы библиотеки Circe или простой JSON-парсер на Scala

Простой

8 мин

1.3K

Блог компании NeoflexПрограммирование*Scala*

Туториал

Всем привет!

Во время нашей работы часто приходится сталкиваться с таким форматом обмена данных как JSON, и на данный момент существует большое количество различных библиотек для JSON сериализации. Конечно, для любителей языка программирования Scala, которые хотят использовать преимущества этого языка, тоже есть такая библиотека – о ней и пойдёт речь в данной статье.

Читать далее

+2

neoflex 10 окт 2023 в 18:16

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Средний

19 мин

5.4K

Блог компании NeoflexPython*SQL*Data Engineering*

Обзор

Сегодня концепция витрин данных является стандартом и используется повсеместно. Поэтому даже небольшим компаниям важно определиться с помощью каких инструментов они будут решать проблему оркестрации процессов построения витрин. Какой инструмент в условиях относительно небольшого бюджета позволит достигать поставленных целей? Этот вопрос мы и постараемся раскрыть в статье. Для этого рассмотрим два известных инструмента: Airflow и NiFi, а также постараемся выявить их сильные и слабые стороны.

Читать далее

+1

lstchk 9 окт 2023 в 09:21

ipywidgets: создаем графические приложения на базе Jupyter

Простой

9 мин

5.4K

Блог компании NeoflexPython*Data Engineering*

Кейс

Jupyter Notebook – это крайне удобный инструмент для разработчика. Являясь дата-инженером, я использую его, как основную IDE. Единственным его ограничением является невозможность создания графических форм классическими методами, принятыми в Python. В этой статье я хочу поделиться лучшим способом решить эту проблему.

Читать далее

+3

momami 30 авг 2023 в 11:02

Как подружить Spark и S3 для обработки файлов

Средний

12 мин

2.5K

Блог компании NeoflexBig Data*Data Engineering*

Туториал

Всем привет!

В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.

Читать далее

+2

serejkee 21 авг 2023 в 12:00

Apache Flink ML – прогнозирование в реальном времени

Средний

7 мин

2K

Блог компании NeoflexПрограммирование*Java*Apache*

Туториал

Всем привет!

В этой статье рассмотрим применение библиотеки Apache Flink ML для построения конвейеров машинного обучения. Затем реализуем простой проект по прогнозированию поведения системы, а также ответим на вопросы: какие задачи Machine Learning подходят для Flink и какие особенности Flink делают его подходящим для использования в задачах Machine Learning.

Читать далее

+2

neoflex 18 авг 2023 в 15:35

Опыт работы с данными или с чем может столкнуться аналитик

Простой

8 мин

2.9K

Блог компании NeoflexХранение данных*Data Engineering*

✏️ Технотекст 2023

В этой статье хотелось бы погрузить вас в мир данных и вспомнить: какие встречались проекты, связанные с хранилищами и данными, какие задачи приходилось решать, а также какие навыки пригодились.

Но вначале придется разобрать извечные вопросы: кто же такие аналитики, что такое данные и понять – должны ли они быть вместе?

Читать далее

+2

tendoo 4 июл 2023 в 10:41

Как Flink Table API упрощает разработку

8 мин

1.2K

Блог компании NeoflexПрограммирование*Scala*Apache*

Туториал

Apache Flink является популярным фреймворком для обработки больших данных и аналитики в режиме реального времени. Одним из ключевых компонентов этого фреймворка является Table API, который предоставляет удобный и выразительный способ работы с данными в формате таблиц, аналогичный SQL.

Если вы разработчик, который хочет узнать больше о том, как использовать Apache Flink Table API для обработки потоковых данных, или если вы интересуетесь современными инструментами аналитики данных, эта статья для вас.

Читать далее

+2

neoflex 29 июн 2023 в 11:30

Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2

Средний

11 мин

1.9K

Блог компании NeoflexOracle*Big Data*Data Engineering*

Туториал

В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.

Читать далее

+1

neoflex 26 июн 2023 в 14:49

Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 1

Средний

9 мин

1.6K

Блог компании NeoflexOracle*Big Data*Data Engineering*

Туториал

Всем привет! В данном цикле статей мы поделимся своими результатами исследования по составлению профиля объектов данных, которые хранятся в RDBMS Oracle с помощью DataHub и интеграции с инструментом Great Expectations. В первой части мы поговорим про проблемы, которые возникли в ходе интеграции, а также поделимся найденными решениями для их устранения.

Читать далее

+2

neoflex 7 июн 2023 в 15:46

Особенности DevSecOps в облаке или как управлять безопасностью с помощью CSPM

Средний

6 мин

1.4K

Блог компании NeoflexИнформационная безопасность*Облачные вычисления*Хранение данных*Облачные сервисы*

Обзор

В данной статье мы хотим осветить особенности организации безопасности в облаках и рассказать, как CSPM продукты помогают автоматизировать процесс обеспечения безопасности в рамках методологии DevSecOps. Также расскажем о продукте собственной разработки, который как раз решает эту задачу.

Читать далее

+1

neoflex 22 мая 2023 в 11:42

Как развернуть кластерную версию Apache Airflow: пошаговая инструкция

7 мин

3.3K

Блог компании NeoflexСистемное администрирование*Data Engineering*

Примерно год назад в Neoflex стартовал большой проект в одной из крупнейших строительных компаний по созданию ЕХД, в которое предполагалось мигрировать 100+ систем-источников. Для этого мы выбрали Airflow в качестве оркестратора, но с учетом предполагаемого объема выполняемых задач, необходимо было установить кластерную версию, чтобы мы могли распределять нагрузку и при необходимости легко добавлять новые мощности.

Очень часто на практике приходится сталкиваться с тем, что отлично задокументированный продукт не «заводится» за пять минут, либо доступен быстро, но в ограниченной конфигурации. Airflow не стал исключением: подробной инструкции фактически нигде не нашлось и, кроме того, мы столкнулись с некоторыми неочевидными вещами. В этой статье поделились свои опытом и деталями пошаговой установки Airflow.

Читать далее

-1

neoflex 17 мая 2023 в 16:04

Как не загубить потенциал и превратить рабочие задачи в спелые яблоки

8 мин

1.3K

Блог компании NeoflexУправление персоналом*Карьера в IT-индустрииЛайфхаки для гиков

Кейс

Привет! Меня зовут Анастасия, в Neoflex я за восемь лет прошла путь от младшего специалиста по тестированию до заместителя руководителя бизнес-направления. На каждом этапе было много энергии, амбиций, желания расти. Но в один момент потенциал и амбиции едва не стали причиной ухода из компании. Я обнаружила, что не могу проявить себя в Neoflex, как делала это раньше. Я страдала, потеряв себя за рутиной, бесконечным повторением задач.

Эта статья о том, как работа с HR-коучем помогла мне преодолеть этот блок и реализоваться внутри компании. Заходите под кат, если хотите разобраться, как преодолеть трудные периоды в карьере, остаться ценным сотрудником, обрести новые смыслы, вдохновение и реализовать свой потенциал с пользой для себя, компании и коллег.

Читать далее

+5

neoflex 21 апр 2023 в 16:08

ClickHouse: как мы уменьшили потребление памяти в 50 раз

Средний

12 мин

7.5K

Блог компании NeoflexАнализ и проектирование систем*Хранилища данных*

Кейс

Мы все чаще используем ClickHouse, и эта СУБД хорошо себя зарекомендовала для построения хранилищ данных и выполнения аналитических проектов. Благодаря column-oriented архитектуре ClickHouse сочетает в себе высокую производительность при вставке больших данных (миллионы строк в секунду) и невероятно быстрый full-scan по большим таблицам. Однако, за такую скорость работы этой СУБД приходится платить определёнными ограничениями, а пользователю – иметь ввиду нюансы (некоторые из них мы описали в предыдущей статье), которые непосредственно влияют на проектирование и разработку решений на базе Clickhouse.

В данной статье покажем – с какими трудностями мы столкнулись из-за архитектурных ограничений ClickHouse и как их преодолели, сократив потребляемые ClickHouse-сервером ресурсы почти в 50 раз.

Читать далее

+6

1