Комментарии / Профиль neoflex / Хабр

Редакция Хабра Neoflex@neoflex

Пользователь

Рейтинг

Подписчики

ПрофильСтатьи66ПостыНовости1Комментарии73

API gateway и управление API в России 2026: сравнение NEOMSA, Platform V Synapse, MWS Octapi

Спасибо за замечание. Мы как раз не пытаемся скрывать корни нашей кодовой базы или делать вид, что этого фактора не существует. Напротив, для enterprise-продукта критически важно честно понимать, откуда он вырос, какие риски это за собой несёт и как именно эти риски минимизируются.

В случае с NEOMSA мы точно не ограничились подходом «взяли WSO2 и просто переупаковали». Наша команда провела глубокий аудит и устранение уязвимостей, доработала продуктовую часть и успешно прошла проверку РБПО. Безопасность, сопровождение и контроль кода для нас — не теоретический пункт в сравнительной таблице, а реальная практическая зона ответственности.

Итог простой: происхождение платформы, безусловно, важно. Но не менее важно то, выстроил ли вендор понятный процесс работы с этим наследием, закрывает ли уязвимости и способен ли развивать продукт в долгосрочной перспективе.

Если вам интересно подробнее узнать, как всё это устроено внутри NEOMSA, напишите нам на почту neomsa@neoflex.ru — детально расскажем, что именно мы изменили и как сопровождаем продукт сейчас.

Как организовать тестовую среду, сохраняя покой владельца данных

neoflex 12 мар в 08:37

На практике, защита персональных данных строится вокруг известных систем хранения и формально описанных потоков данных. Однако по мере роста и развития бизнеса, появляются дополнительные копии данных — в аналитических хранилищах, тестовых средах, логах и интеграционных пайплайнах. Поэтому деперсонализация становится важным механизмом снижения риска, она позволяет использовать данные в разработке и аналитике без распространения персональной информации.

Наша система позволяет отслеживать изменения в структуре данных - появление новых таблиц/полей и маскирует их по умолчанию, оповещая об изменения ответственных лиц.

Как организовать тестовую среду, сохраняя покой владельца данных

neoflex 12 мар в 08:37

Исходя из нашего проектного опыта, полностью синтетические данные хорошо подходят для изолированных тестов, но редко воспроизводят сложную структуру и взаимосвязи реальных данных. Например у пользователя может быть связь между валютой, страной, типом аккаунта. Синтетический генератор легко создаст статистически похожие данные, но не сохранит реальные взаимосвязи. На наш взгляд, деперсонализация позволяет сохранить структуру данных и при тестировании можно найти редкие кейсы, о которых ранее не упомянул заказчик при обсуждении ТЗ.

Ключи в базах данных: больше чем просто идентификатор

neoflex 19 дек 2025 в 08:16

С учетом того, что бизнес-процесс был изначально устроен так, что по одному клиенту мог проводиться только один платеж в день выбор ключа PRIMARY KEY (client_name, payment_date) очевиден. И при возврате вернется именно тот платеж, который был совершен в эту дату этим клиентом.

-1

Ключи в базах данных: больше чем просто идентификатор

neoflex 19 дек 2025 в 08:15

Упоминаемые недостатки (размер, сложность, предсказуемость) действительно не являются приговором. В статье подсвечиваются риски того, что может быть. Спорить можно только о вероятности появления этого риска. Укажите, пожалуйста, на конкретное утверждение, которое, по вашему мнению, неверно в принципе и такого "не может быть никогда" - мы с благодарностью изучим этот вопрос, возможно и нам это принесет новые знания.

Хотелось бы передать многообразие ключей и причины их появления, поэтому про интеграцию систем и эффективность потоков данных, как раз следующий DWH уровень.

Ключи в базах данных: больше чем просто идентификатор

neoflex 19 дек 2025 в 08:14

Этот пример это и показывает. Помимо того, что любой SEQUENCE не гарантирует непрерывность числового ряда. Например, при откате транзакции полученное значение теряется безвозвратно. Но даже в "идеальном мире" — без единого отката — использование CASHE - основная причина разрывов.

-1

Модель данных для успешного бизнеса: от простоты к компромиссам

neoflex 1 ноя 2025 в 11:45

Большое спасибо за ваш отклик! Вы абсолютно правы. Мы использовали абстрактные примеры для наглядности, но вы точно подметили ключевое различие: например в ритейле с микросервисной архитектурой, а не 1-2 источниками, как в нашем примере, Data Vault оказывается гораздо более жизнеспособным и гибким выбором на долгосрочную перспективу благодаря своей масштабируемости и адаптивности к частым изменениям.

Витрина данных: сверка с эталоном

neoflex 16 июн 2025 в 14:03

Безусловно, мы высоко ценим современные инструменты управления данными, такие как возможности различных БД, Data Quality решения, Data Catalog и др. Мы активно применяем их в своей работе. Однако в реальных проектах не всегда есть идеальные условия.

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

neoflex 20 мая 2025 в 20:13

Добрый день! Хотели бы отметить, что запросов, касающихся того, чтобы сделать OLAP с той же функциональностью, как был в MS, к нам поступает достаточно много. На ClickHouse зачастую переходить не хотят, и в Exel модели на MDX не покрутишь, поэтому и возникают идеи насчет Kylin / eMondrian

OLAP-кубы – вчерашний день? Технологии нового поколения для аналитики данных

neoflex 20 мая 2025 в 18:55

Ну, собственно, о Visiology в статье упомянуто.

AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

neoflex 24 июн 2024 в 13:18

Добрый день! На наш взгляд, NN гораздо быстрее решают эту задачу, поэтому выбрали решить ее именно таким путем. Будет здорово, если вы сможете показать алгоритм поиска похожих пикселей в многомерном массиве с учетом ранжирования и процентов распределения оттенков, который доказывает обратное.

Особенности партиционирования в PostgreSQL и Apache Hive

neoflex 15 янв 2024 в 11:28

Добрый день! Это равнозначные термины. На практике в части PostgreSQL чаще используют понятие секционирование, а в части Apache Hive – партиционирование. В статье указано, что партиционирование еще может называться секционированием.

Оптимизация хранения данных в Greenplum

neoflex 18 дек 2023 в 11:32

Добрый день! Для просмотра структуры определенной таблицы, можно сделать выборку из системного представления pg_catalog.pg_partitions

SELECT partitiontablename, partitionname, partitiontype, partitionlevel, partitionrankFROM pg_catalog.pg_partitionsWHERE schemaname = '<schema_name>'AND tablename = '<table_name>';

Сравнительный анализ методов аппроксимации на основе SQL-запросов

neoflex 11 дек 2023 в 15:42

Добрый день! Верно, задача аппроксимации может быть решена с использованием сторонних библиотек. R или Python как раз те языки, где есть библиотеки, предоставляющие такие решения. Если вас больше устраивает такой вариант, конечно, им можно пользоваться, тем более, что вам ближе R или Python, чем SQL. Но стоит остановиться на ряде недостатков такого подхода:

1) SQL-решение может быть (возможно, с небольшими доработками) перенесено практически на любой тип базы (Oracle, MS SQL, SAP и т.д.). Возможно ли его так же легко перенести со сторонними библиотеками? Скорее – нет;

2) Производительность – не самая сильная сторона R или Python. Сможет ли ваше решение работать с такой же производительностью, как SQL-запрос? Здесь могут быть сомнения;

3) Установка дополнительных библиотек – не всегда простая задача. Если вам доводилось работать в крупных организациях, то на согласование и установку библиотек уйдут месяцы;

4) По поводу того, что нельзя/сложно апроксимировать периодическую функцию: ряд Фурье считается SQL-ем практически так же, как и другим языком;

5) Какой код легче читать – здесь, как нам кажется, дело вкуса и привычки.

Сравнительный анализ методов аппроксимации на основе SQL-запросов

neoflex 11 дек 2023 в 15:29

Добрый день! Рассмотренная в статье зависимость (количество Интернет-пользователей от времени) – это всего лишь один из возможных примеров. Предложенный вариант решения носит универсальный характер, то есть подходит под любой пример. По этой причине рассматриваются все варианты аппроксимации, даже если они заведомо плохо описывают конкретный пример (есть вероятность, что другой пример опишет как раз та аппроксимация, которая не дала хорошего согласия в нашем случае). Вариант степенной регрессии записан в виде y=ax^b. Надо понимать, что мало записать функцию произвольного вида, следующим шагом необходимо решить уравнения методом МНК, а это накладывает существенные ограничения. Не каждая система уравнений может быть решена аналитически. Как раз это и мешало добавить дополнительное слагаемое - с в уравнение (добавить можно, но решить нельзя). Для улучшения аппроксимации можно переопределить систему координат, и об этом говорится в статье. График функции 21 - y=b/x – это гипербола.

Опыт внедрения UI CMAK для управления кластерами Kafka

neoflex 10 ноя 2023 в 08:07

Здравствуйте, да, можно запустить CMAK из контейнера Docker, однако, такой задачи не стояло.

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

neoflex 30 окт 2023 в 07:30

Если смотреть глубже - да, инструменты заточены под решение разных задач. Но в данном случае рассматривается конкретная задача, которая может быть решена обоими способами. Суть задачи максимально упрощена. Необходимо было показать - что могут предложить эти инструменты.

Уже в дальнейшем, исходя из бизнес-задач, которые могут возникать, мы можем здраво оценить, что будет предпочтительнее выбрать.

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

neoflex 30 окт 2023 в 07:27

Ну и опять же - обработка ошибок, алертинг... не-еет

Тема данной статьи не связана с обработкой ошибок, настройкой алертинга и т. д. Эти вещи, безусловно, необходимы, но в текущей статье не требуют разработки и упоминания.

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

neoflex 30 окт 2023 в 07:23

Но блин, вы запускаете 4 своих потока асинхронно, и надеетесь, что они всегда дадут 4 flow-file'а. А если нет? Если трафик обновления в таблицах разный? Пуф! Вы пролюбили данные.
А если кто-то остановил процессоры после первого инсерта? Пуф, вы пролюбили данные - следующий флоуфайл запустит truncate.
А если трафик изменений в таблицах действительно высокий? Пуф! Вы пролюбили данные - цепочка обработки не ждет прохождения каждого отдельного flow-file'а от начала и до конца.
Если БЫ вы использовали запуск по крону - этих проблем бы не было, но чистить временные данные "in general" все равно лучше после того, как завершили запись, а не до.

Проблема с количеством Flow Files очевидна. Конечно, мы потеряем данные, если их будет меньше четырех штук. Но в данном случае мы принимаем, что источник всегда будет отдавать новые записи.

В данной статье не говориться, что запуск потоков руками - это то, как нужно работать с данными процессорами. Стоило об этом написать, но в текущей статье подразумевается то, что процессоры будут запускаться одновременно с определенной периодичностью, которую мы можем самостоятельно настроить. Это обезопасит нас от повторных запусков и от преждевременного затирания данных.

Если вы уверены, что на каждый запуск у вас будут данные по всем четырем потокам - зачем вам тут скрипты? Используйте merge с min files = max files = 4 и expiration на очереди.

Использование скриптов объясняется желанием показать, что такая функциональность присутствует, а также показать на простом примере, как эти скрипты могут выглядеть.

Если у вас четыре идентичных потока обработки - не надо их контрол-цэ контрол-вэ - извлекли данные из таблиц - запускайте их в общий поток с параметризацией - под нагрузкой окупится.

По поводу общего потока согласны. Так как в данном случае мы получаем имя таблицы, которую захватываем + имеется возможность добавить атрибут, который более точно определял бы источник, мы могли бы реализовать процесс Truncate'а и записи через один процессор. Но нужно проверить, действительно ли это более оптимальное решение.

Опыт работы с данными или с чем может столкнуться аналитик

neoflex 24 авг 2023 в 10:27

Не хочу никого обидеть, но главный поток, который я тут усматриваю - это поток сознания автора. Если в вашей компании не принято следовать законам логики в аналитической работе (а такой вывод напрашивается из ваших текстов), то работать у вас как-то совсем не хочется, извините.

Если вместо дискуссий откланяться на непродуктивную критику без конкретики и воображаемую реальность, то вряд ли легко дается работа в команде – а для компании это важный навык.

Нет уж, извините. Аналитик именно анализом и занимается. И это самое конкретное определение, которое вообще может быть. А если у вас тот же самый сотрудник кроме обязанностей (функции, роли) аналитика выполняет еще какие-то задачи, напр. change-manager'а, то это совсем другое дело.

Если вернуться к аналитику, то кроме анализа, есть задачи синтеза и в целом другие подходы. То есть определение минимум неполное. Если вспомнить, что есть другие специалисты по анализу, то определение неконкретное.

Если действительно интересны обязанности и навыки аналитика, то есть свежий профессиональный стандарт Системного аналитика от 27.4.2023 и немного устаревший стандарт Бизнес аналитика от 2018 г. Рекомендуем с ним ознакомиться, там прописаны в том числе и стандартная работа с изменениями, чтобы не путаться.

То есть, по-вашему, если внутри системы происходят какие-то процессы, то это какой-то исключительный случай??? Хм.

Есть еще одно базовое определение: система – это множество элементов, их свойств и связей. Как раз системный анализ рассматривает объекты как системы. Если мы говорим о таких объектах, как процессы, то это система, которая часто зависит от внешних реакций, инструментов и т.д.

2 3 4