Articles / Profile of neoflex / Habr

Пользователь

ProfileArticles61PostsNews1Comments67

@neoflex Oct 22 at 12:39

Модель данных для успешного бизнеса: от простоты к компромиссам

Medium

9 min

5.9K

Neoflex corporate blogBig Data * Data Engineering * IT-companies

История моделей данных — это не строгое следование хронологии, а путь нарастания сложности для решения всё более трудных задач. Чтобы понять, почему появились сложные модели, нужно начать с самой простой и интуитивно понятной из них. Это проведет нас от базовых структур к комплексным, позволит осознанно выбирать инструмент, понимая все предпосылки и компромиссы.

«Широкие» таблицы

Путь поиска баланса между простотой, производительностью и гибкостью начинался с «широких» (их также называют «плоских») таблиц, где вся информация хранится в единой структуре. Это была эпоха простоты: достаточно одного запроса — и все двести атрибутов пользователя оказывались у вас в руках. Процесс извлечения данных был быстрым и интуитивно понятным, поскольку обходился без сложных соединений и подзапросов.

Однако у этой простоты обнаружилась обратная сторона — избыточность. Представьте, что данные о сотрудниках и их работодателях хранятся в одной таблице. Если компания меняет название, то необходимо обновлять каждую запись, которая связана с изменяемой информацией. Это не только расточительно с точки зрения хранения, но и чревато аномалиями в данных. Также при увеличении количества данных в «широких плоских» таблицах возрастает и риск нарушения консистентности информации.

Читать далее

+5

@neoflex Oct 16 at 09:34

HumanDynamics: как мы построили цифровой мир, жители которого пошли в банк и взяли кредит

Easy

9 min

4.5K

Neoflex corporate blogPython * Artificial IntelligenceMachine learning * Data Engineering *

Tutorial

Статья посвящена рассказу о том, как простая задача генерации синтетических данных для банка переросла в создание фреймворка симуляции цифровой цивилизации под названием HumanDynamics.

Читать далее

0

@neoflex Sep 25 at 15:23

Эволюция данных для банковской отчетности

11 min

3.8K

Neoflex corporate blogIT Infrastructure *

Современная банковская отчетность находится в точке напряжения между растущими регуляторными требованиями и ограниченными возможностями существующих в банках систем: требуется своевременное предоставление большого объема регламентированных отчетов различным контролирующим органам и внутренним подразделениям банка, импортозамещение на отечественные разработки, диверсификация банковских операций, увеличение объема данных.

Количество отчетных форм неуклонно растет, при этом требования к качеству и точности предоставляемых данных становятся строже. Штрафы за несвоевременную или некорректную отчетность могут быть от предупреждения и до отзыва лицензии.

Квалифицированных специалистов, понимающих банковский учет и современные технологии обработки данных категорически не хватает. Это создаёт зависимость от узкого круга экспертов и риски при их уходе.

Практически в каждом банке используется несколько систем для учета операций, данные из которых необходимо консолидировать для отчётности.

На данный момент банки предоставляют в Банк России порядка 100 различных форм отчетов. В связи с таким разнообразием отчетных форм возникает вопрос эффективной автоматизации процессов формирования обязательной банковской отчетности. Недостаточность автоматизации данных процессов создаёт дополнительные сложности, увеличивает трудозатраты и снижает качество предоставляемых отчетов.

Автоматизация должна решить ключевые проблемы, возникающие при формировании отчетности:

Избыточность ручного труда: формирование части форм отчетности требует ручной обработки больших объемов данных, агрегации выгрузок из различных АБС в один отчет

Читать далее

0

@neoflex Jul 8 at 11:19

ИИ-магия: фронтенд, который думает

Medium

9 min

2.6K

Neoflex corporate blogBig Data * Machine learning * Artificial Intelligence

Review

Автор: Кристина Паревская, Neoflex

Мы живем в мире быстро развивающихся технологий. С каждым годом frontend-разработка проще не становится. Сегодня frontend-разработчики могут не просто создавать обычные формы, но и игры, и даже запускать модели ИИ для выполнения задач, например, распознавания объекта. В данной статье будет рассказано, как на примере системы по распознаванию возгораний объекта в доме можно без backend части добавить в свое приложение модель для обнаружения пожара.

Погружаемся в тему пожаров и возгораний

Распознавание возгораний объектов на ранних стадиях является важной и актуальной проблемой в наши дни, решение которой снизит экономический риски и спасет жизни многих людей.

Такие компании, как Johnson Controls, Honeywell International, Inc., GENTEX CORPORATION, Siemens, Robert Bosch GmbH, Halmaplc, Eaton, Raytheon Technologies Corporation уделяют свое внимание исследованиям в области распознавания возгораний объектов и предлагают свои решения по устранению пожаров. Этими компаниями движут желание помочь людям, быстрое развитие беспроводных технологий и развитие строительной отрасли, охватившей весь мир.

Читать далее

+5

@neoflex Jun 26 at 08:55

Дело о похищенном рюкзаке: SQL, сложность и слепая вера в ИИ

Easy

3 min

1.1K

Neoflex corporate blogMachine learning * Artificial IntelligenceSQL *

Case

1. Тревожный звонок

Был хмурый лондонский вечер, когда в нашу скромную квартиру на Бейкер-стрит ворвался взволнованный инспектор Лестрейд.

— Холмс! Нам срочно нужна ваша помощь! — воскликнул он, сбрасывая с плеч дождевик. — В городе орудует хитрый вор. Он крадёт предметы, но уносит их только в одном рюкзаке ограниченной вместимости. Нам нужно вычислить, какие именно вещи он унесёт, чтобы максимизировать свою добычу!

Читать далее

+2

@neoflex Jun 16 at 05:27

Витрина данных: сверка с эталоном

Medium

5 min

1.3K

Neoflex corporate blogSQL * Big Data *

Tutorial

Одним из этапов разработки витрин данных является тестирование результата и подтверждение корректности разработанного функционала. При этом организовано тестирование может быть по-разному.

Определим несколько видов тестирования:

1. Технические тесты

Техническими тестами легко можно проверить корректность сборки витрины. Из основных видов технических тестов можно выделить:

· Дубли - проверка на наличие дублей по ключу

· Разрывы - проверка на разрывы в истории

· Перекосы - проверка наложения исторических записей друг на друга

· Даты - проверка корректности формирования дат

· NULL в ключе - проверка NULL в ключевых и обязательных к заполнению полях

Подробно на этих тестах останавливаться не будем, информация по ним есть в открытом доступе.

2. Бизнес-тесты

Это набор тестовых запросов, направленных на выявление ошибок в бизнес-данных. Как правило набор бизнес-тестов предоставляет владелец объекта.

Бизнес-тестов может быть великое множество, здесь все зависит от вашего бизнес-домена и от конкретных требований к витрине.

Приведу примеры некоторых бизнес-тестов:

Читать далее

+2

@neoflex May 20 at 07:42

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

Medium

18 min

12K

Neoflex corporate blogData visualization * Data storage *

Review

За последние полгода к нам обратились сразу несколько заказчиков с запросом модифицировать или мигрировать структуру их OLAP-кубов – естественно, с сохранением функциональности. Прежде чем браться за задачу, неплохо бы вспомнить, с чем мы имеем дело.

Об OLAP-кубах, как о некоей абстракции, я услышал во второй половине 2000-х гг., а в реальности столкнулся с ними несколькими годами позже.

Читать далее

+7

@neoflex Oct 15 2024 at 08:03

От звука к смыслу: распознавание речи в видеоконтенте

Easy

5 min

5K

Neoflex corporate blogWorking with video * Machine learning * Python *

Tutorial

Распознавание речи из видео — это одна из ключевых задач в области обработки естественного языка, которая находит свое широкое применение в различных сферах, начиная от развлекательной индустрии и заканчивая научными приложениями.

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

Подробнее

+14

@neoflex Jun 21 2024 at 08:36

AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

Medium

7 min

1K

Neoflex corporate blogMachine learning * Artificial Intelligence

Небольшое интро, в котором многие себя узнают

Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка?

Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов?

А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный.

И вопрос работы с оттенками является важным не только при подборе гардероба.

Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов;

Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика;

Индустрия красоты: подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента;

Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний;

Реклама: создание ярких и запоминающихся материалов с учетом психологии восприятия цвета;

Автомобили и мотоциклы: поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.

Читать далее

+3

@neoflex Jun 10 2024 at 07:10

Как маскировка данных спасает вашу приватность

Easy

9 min

3.1K

Neoflex corporate blogData Engineering * Big Data * SQL * Python *

FAQ

Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.

Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.

Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.

Читать далее

0

@neoflex May 20 2024 at 14:35

Задачи и боли пресейл-консультанта

Medium

12 min

2.3K

Neoflex corporate blogBig Data *

Tutorial

Neoflex — компания‑интегратор (некоторые «хаброэксперты» с оттенком пренебрежения называют такие компании «галерами»), которая решает конкретные проблемы заказчиков, занимается прикладной разработкой «под ключ». У нас в работе находится одновременно много проектов на разном стеке и постоянно появляются новые, так что сотрудники обычно не скучают, разгребая годами тонны легаси или разрабатывая очередное широко известное в узких кругах мобильное приложение.

Эта статья, надеюсь, будет интересна тем, кто работает на проектах, но не знает, с чего всё начинается и что предшествует старту проекта. А может быть, вы грустите над своими задачами и хотите присоединиться к команде с более прогрессивными идеями? :)

Чтобы проект успешно завершить, нужно его начать :‑). А чтобы начать, нужно его продать. Я вхожу в пресейл‑команду внутри центра компетенций Big Data Solutions в качестве технического консультанта (архитектор, разработчик, иногда и системный аналитик) и уже накопил интересный опыт наших «болей» на этом пути пред‑продаж и даже разработал с коллегами общий алгоритм действий для подобных команд.

С чего вообще начинается наша работа? Сейлз‑менеджеры общаются с действующему и потенциальными заказчиками, если находят что‑то по профилю нашего центра компетенций (построение/миграция DataLake/хранилищ или витрин данных и/или BI‑отчётности), приходят к нам с более или менее (чаще «менее», чем «более») чётко сформированными требованиями. Центр кометенций назначает одного ответственного за пресейл (пресейл‑консультанта), тот запрашивает себе в помощь экспертов от DevOps, аналитики, разработки и тестирования (как правило, пресейл‑консультант сам является экспертом в одной из этих областей), возможно, кого‑то ещё. Желательно, чтобы эксперты обладали большим проектным опытом и могли посвятить пресейлу несколько следующих дней: сроки на подготовку ответного предложения, как правило, очень сжатые.

Читать далее

+5

@neoflex Jan 15 2024 at 09:02

Особенности партиционирования в PostgreSQL и Apache Hive

11 min

14K

Neoflex corporate blogPostgreSQL * SQL *

Tutorial

Часто специалисты, работающие с классическими реляционными базами данных, например, с PostgreSQL, испытывают затруднения в работе при переходе на систему хранения больших данных типа Apache Hive. Это связано с непониманием того, как можно использовать в новой среде уже наработанные подходы и методы работы с данными.

В данной статье рассмотрены некоторые особенности использования языка SQL в реляционных СУБД и Apache Hive. Кроме того, проведен сравнительный обзор возможностей и подходов, а также применение партиционирования на практике.

Материал будет полезен специалистам младших и средних грейдов, которые используют в своей практике SQL, но имеют мало опыта в Hive или Postgres.

Читать далее

+2

@neoflex Dec 19 2023 at 09:21

Как оценить эффект от внедрения проекта?

Easy

27 min

10K

Neoflex corporate blogMachine learning * Statistics in ITPython *

Целью любого проекта, будь то разработка сайта, внедрение искусственного интеллекта или модернизация оборудования, является получение бизнес-результата. Поэтому для клиента важно понимать, какую выгоду он получит от внедрения проекта и как это отразится на его прибыли. Кроме того, разработчикам также необходимо оценить эффект от проекта по нескольким причинам: увеличение вероятности получения новых проектов, лучшее понимание потребностей клиента, повышение рыночной стоимости и моральное удовлетворение от значимости своей работы.

В статье показано применение таких методов оценки эффекта от внедрения проекта, как AБ-тестирование (классический подход, стратификация, CUPED), альтернативное прогнозирование, синтетический контроль и мэтчинг.

Читать далее

+9

@neoflex Dec 14 2023 at 09:14

Оптимизация хранения данных в Greenplum

8 min

16K

Neoflex corporate blogPostgreSQL * SQL * Data compression *

Tutorial

В мире современной аналитики данных, где информация – это ключевой актив организации, база данных должна быть не только масштабируемой, но и высокоэффективной. В этом контексте Greenplum, мощная и распределенная система управления базами данных, стоит в центре внимания. Greenplum предоставляет подходящие возможности для хранения и анализа огромных объемов данных, но, чтобы добиться максимальной производительности и оптимальной управляемости, необходимо грамотно оптимизировать хранение данных.

Данная статья в первую очередь для тех, кто только начинает знакомство с оптимизацией в Greenplum и хочет разобраться на что стоит обратить внимание в первую очередь. Будут рассмотрены три ключевых аспекта: компрессию данных, распределение и партиционирование. Узнаем – как правильно применять эти стратегии, чтобы улучшить производительность запросов, снизить потребление ресурсов и повысить эффективность работы базы данных.

Читать далее

+2

@neoflex Dec 11 2023 at 08:31

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Medium

19 min

22K

Neoflex corporate blogStatistics in ITSQL * PostgreSQL *

Tutorial

✏️ Technotext 2023

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость y_i = f(x_i), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x₁, y₁), (x₂, y₂) … (x_n, y_n), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=x_i будут близки к экспериментальным данным. Приближение функции f(x_i) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(x_i).

Читать далее

+8

@neoflex Nov 7 2023 at 12:50

Опыт внедрения UI CMAK для управления кластерами Kafka

3 min

3.8K

Neoflex corporate blogApache * Open source *

Apache Kafka – это платформа для обработки потоков данных в реальном времени, которая позволяет эффективно передавать и обрабатывать огромные объемы данных. Не погруженным в технологию пользователям сложно настраивать и осуществлять мониторинг Kafka без специализированных инструментов с графическим интерфейсом.

В этой статье мы поделимся опытом внедрения такого инструмента и расскажем про CMAK.

Читать далее

+2

@neoflex Nov 3 2023 at 14:12

Как расширить компетенции аналитиков при работе с Big Data

Medium

5 min

6.4K

Neoflex corporate blogSQL * Big Data *

Opinion

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.

Читать далее

+1

@neoflex Oct 13 2023 at 11:27

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Medium

11 min

3.1K

Neoflex corporate blogCloud services * Google Cloud Platform * Python *

Review

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Данный материал будет описывать опыт нашей команды по построению end-to-end рекомендательной ML-системы визуального поиска похожих товаров с помощью инструментов, предоставляемых облачной платформой Google Cloud Platform (далее – GCP) и структурно будет состоять из трех частей, описывающих три этапа разработки: от простой реализации задачи к более сложной, или точнее – из двух с половиной, так как второй этап оказался не жизнеспособным, но обо всем по порядку.

Читать далее

+1

@neoflex Oct 10 2023 at 15:16

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Medium

19 min

16K

Neoflex corporate blogPython * SQL * Data Engineering *

Review

Сегодня концепция витрин данных является стандартом и используется повсеместно. Поэтому даже небольшим компаниям важно определиться с помощью каких инструментов они будут решать проблему оркестрации процессов построения витрин. Какой инструмент в условиях относительно небольшого бюджета позволит достигать поставленных целей? Этот вопрос мы и постараемся раскрыть в статье. Для этого рассмотрим два известных инструмента: Airflow и NiFi, а также постараемся выявить их сильные и слабые стороны.

Читать далее

+1

@neoflex Aug 18 2023 at 12:35

Опыт работы с данными или с чем может столкнуться аналитик

Easy

8 min

6.8K

Neoflex corporate blogData storage * Data Engineering *

✏️ Technotext 2023

В этой статье хотелось бы погрузить вас в мир данных и вспомнить: какие встречались проекты, связанные с хранилищами и данными, какие задачи приходилось решать, а также какие навыки пригодились.

Но вначале придется разобрать извечные вопросы: кто же такие аналитики, что такое данные и понять – должны ли они быть вместе?

Читать далее

+2

1