Как стать автором
Обновить
Neoflex
Создаем ИТ-платформы для цифровой трансформации
Сначала показывать

Применение low-code в аналитических платформах

Время на прочтение16 мин
Количество просмотров5.4K
Уважаемые читатели, доброго дня!

Задача построения ИТ-платформ для накопления и анализа данных рано или поздно возникает у любой компании, в основе бизнеса которой лежат интеллектуально нагруженная модель оказания услуг или создание технически сложных продуктов. Построение аналитических платформ — сложная и трудозатратная задача. Однако любую задачу можно упростить. В этой статье я хочу поделиться опытом применения low-code-инструментов, помогающих в создании аналитических решений. Данный опыт был приобретён при реализации ряда проектов направления Big Data Solutions компании «Неофлекс». Направление Big Data Solutions компании «Неофлекс» с 2005 года занимается вопросами построения хранилищ и озёр данных, решает задачи оптимизации скорости обработки информации и работает над методологией управления качеством данных.



Избежать осознанного накопления слабо и/или сильно структурированных данных не удастся никому. Пожалуй, даже если речь будет идти о малом бизнесе. Ведь при масштабировании бизнеса перспективный предприниматель столкнётся с вопросами разработки программы лояльности, захочет провести анализ эффективности точек продаж, подумает о таргетированной рекламе, озадачится спросом на сопроводительную продукцию. В первом приближении задача может быть решена «на коленке». Но при росте бизнеса приход к аналитической платформе все же неизбежен.

Однако в каком случае задачи аналитики данных могут перерасти в задачи класса «Rocket Science»? Пожалуй, в тот момент, когда речь идёт о действительно больших данных.
Чтобы упростить задачу «Rocket Science», можно есть слона по частям.



Чем большая дискретность и автономность будет у ваших приложений/сервисов/микросервисов, тем проще вам, вашим коллегам и всему бизнесу будет переваривать слона.

К этому постулату пришли практически все наши клиенты, перестроив ландшафт, основываясь на инженерных практиках DevOps-команд.
Читать дальше →
Всего голосов 6: ↑4 и ↓2+4
Комментарии5

Kubernetes на собственной инфраструктуре: «за» и «против» приватных облаков

Время на прочтение9 мин
Количество просмотров7K
Уважаемые читатели, доброго дня!

В данной статье Игорь Котенко, главный архитектор компании «Неофлекс», делится опытом развертывания платформы контейнеризации на инфраструктуре предприятия.
Читать дальше →
Всего голосов 8: ↑6 и ↓2+7
Комментарии12

Запускаем Apache Spark на Kubernetes

Время на прочтение22 мин
Количество просмотров15K
Дорогие читатели, доброго дня. Сегодня поговорим немного про Apache Spark и его перспективы развития.



В современном мире Big Data Apache Spark является де факто стандартом при разработке задач пакетной обработки данных. Помимо этого, он также используется для создания стриминговых приложений, работающих в концепции micro batch, обрабатывающих и отгружающих данные маленькими порциями (Spark Structured Streaming). И традиционно он являлся частью общего стека Hadoop, используя в качестве менеджера ресурсов YARN (или, в некоторых случаях, Apache Mesos). К 2020 году его использование в традиционном виде для большинства компаний находится под большим вопросом в виду отсутствия приличных дистрибутивов Hadoop — развитие HDP и CDH остановлено, CDH недостаточно проработан и имеет высокую стоимость, а остальные поставщики Hadoop либо прекратили своё существование, либо имеют туманное будущее. Поэтому всё больший интерес у сообщества и крупных компаний вызывает запуск Apache Spark с помощью Kubernetes — став стандартом в оркестрации контейнеров и управлении ресурсами в приватных и публичных облаках, он решает проблему с неудобным планированием ресурсов задач Spark на YARN и предоставляет стабильно развивающуюся платформу с множеством коммерческих и открытых дистрибутивов для компаний всех размеров и мастей. К тому же на волне популярности большинство уже успело обзавестись парой-тройкой своих инсталляций и нарастить экспертизу в его использовании, что упрощает переезд.

Начиная с версии 2.3.0 Apache Spark обзавёлся официальной поддержкой запуска задач в кластере Kubernetes и сегодня, мы поговорим о текущей зрелости данного подхода, различных вариантах его использования и подводных камнях, с которыми предстоит столкнуться при внедрении.
Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии5

Data Platform для целей формирования регуляторной отчетности

Время на прочтение6 мин
Количество просмотров3.6K
Формирование банковской регуляторной отчетности является сложным процессом с высокими требованиями к точности, достоверности, глубине раскрываемой информации. Традиционно для автоматизации отчетности организации используют классические системы хранения и обработки данных. При этом с каждым годом активно растет число задач, где требуется не просто проводить аналитику большого объема разнородных данных, но и делать это с требуемой для бизнеса скоростью.

Совокупность этих факторов привела к изменению процессов управления данными. Data Platform – подход, который предлагает переосмысление традиционной концепции классического хранилища данных (КХД) с использованием технологий Big Data и новых подходов, применяемых при построении Data Lake платформ. Data Platform позволяет качественно учесть такие важные факторы, как рост количества пользователей, требования к time2customer (обеспечить возможность высокой скорости выполнения изменений), а также стоимость получаемого решения, в том числе, с учётом его дальнейшего масштабирования и развития.
Читать дальше →
Всего голосов 7: ↑7 и ↓0+7
Комментарии2

Business Intelligence по-русски — на квинтетах

Время на прочтение26 мин
Количество просмотров3.5K

В одной из заметок нашего блога мы освещали подход к хранению и обработке данных, о котором получили несколько вполне ожидаемых вопросов такого плана: «В общем, ждём реализации, вот уж оно залетает...». По результатам нескольких реализаций я расскажу о плюсах и минусах этого подхода на примере одной из наших разработок.


Своим заказчикам мы обычно предлагаем достаточно мощный и гибкий инструмент BI, способный решить все их задачи, однако это — зарубежный коммерческий продукт, а клиентов всё чаще интересует тема импортозамещения. В рамках изучения наших перспектив в этом плане мы начали тестирование собственного инструментария BI, используя open-source решения и платформу разработки, построенную на квинтетах.




В качестве эталона мы взяли наш существующий коммерческий продукт, так что сравнение, по возможности, будем проводить с ним.

Читать дальше →
Всего голосов 6: ↑5 и ↓1+4
Комментарии2

Обучающий курс по DataPower

Время на прочтение14 мин
Количество просмотров12K

Материал подготовлен в соавторстве с пользователем wedmeed


В 2017 году, когда начинался наш проект во Вьетнаме, мы столкнулись с новым для нас зверем IBM DataPower. IBM DataPower – продукт, представляющий собой gateway между клиентами и бэкендами, предназначенный для фильтрации, маршрутизации, обогащения или других преобразований проходящих через него сообщений (далее – запросов). Обучаться нужно было быстро, времени на раскачку не было, поэтому нам было предложено самостоятельно ознакомиться с ним, после чего были многочасовые конференции по скайпу с нашим коллегой из Москвы, который передавал нам свои знания и опыт работы с этим продуктом.


Самостоятельное обучение основывалось на изучении документации и просмотре обучающих видео из интернета – и тут меня ждал подвох. Мне практически не удалось найти информации на русском языке. К слову, мои знания английского языка на тот момент были не на высшем уровне, к тому же это был мой первый проект и, наверное, именно эти факторы усложнили мне жизнь. Это сподвигло меня написать обучающую статью на русском языке и в максимально простом изложении для начинающих разработчиков, которые столкнулись с этим продуктом и пытаются оперативно понять его азы. Статья не освободит вас от чтения документации, но облегчит жизнь на первых этапах понимания «как это работает».


Стоит также заметить, что приведенная в практике структура будет приближена к реальному проекту, что позволит вам использовать ее как базу, расширяя и дополняя под ваши требования. В заключение к разделам «Теория» будет приведено несколько слов об уже реализованном проекте, а также некоторые особенности, на которые стоит обратить внимание.



Читать дальше →
Всего голосов 6: ↑6 и ↓0+6
Комментарии1

Квинтет как базовая сущность для описания предметной области

Время на прочтение10 мин
Количество просмотров6K
Квинтет — это способ записать атомарные фрагменты данных с указанием их роли в нашей жизни. Квинтетами можно описать любые данные, при этом каждый из них содержит исчерпывающую информацию о себе и о связях с другими квинтетами. Он представляет термины предметной области, независимо от используемой платформы. Его задача — упростить хранение данных и улучшить наглядность их представления.



Я расскажу о новом подходе к хранению и обработке информации и поделюсь мыслями о создании платформы разработки в этой новой парадигме.
Взглянуть по-новому на известные вещи
Всего голосов 17: ↑8 и ↓9-1
Комментарии60

Как мы в Neoflex развиваем экспертизу DevOps

Время на прочтение15 мин
Количество просмотров4.6K

После выделения DevOps внутри компании «Неофлекс» в отдельное бизнес-направление команда стала активно наращивать экспертизу и делиться найденными источниками знаний друг с другом. В этом посте я поделюсь с вами личным опытом погружения в тему и наиболее интересными ресурсами.




Основными источниками информации по теме стали следующие:


  • Интернет-ресурсы – как независимые, так и компаний разработчиков
  • Статьи и презентации
  • Литература
  • Конференции
  • Программы обучения – как платные, так и бесплатные
Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Комментарии0

Как развернуть окружение для разработки приложений на React Native на Windows

Время на прочтение2 мин
Количество просмотров47K

Доброго времени суток!


Решив начать разрабатывать приложения на React Native, я столкнулся с проблемами разворачивания окружения. Сегодня я хочу поделиться опытом его настройки.

Конечно, на официальном сайте есть подробное описание, но следуя только этим рекомендациям, было довольно сложно сделать все настройки.


Читать дальше →
Всего голосов 15: ↑12 и ↓3+9
Комментарии9

Организация хранения кода в GitLab и интеграция код ревью в GitFlow

Время на прочтение7 мин
Количество просмотров14K

Не так давно на одном из проектов нашей компании было принято решение наконец отказаться от использования Subversion для хранения и версионирования кода в пользу Git.



Основными целями перехода были следующие:


  • Повышение прозрачности процесса разработки.
  • Внедрение обязательной процедуры код ревью до выноса обновлений на тестовые среды.
  • Внедрение непрерывной интеграции для сборки обновлений после код ревью и установки их на тестовые среды.

Читать дальше →
Всего голосов 14: ↑12 и ↓2+10
Комментарии10

Распределенное хранилище данных в концепции Data Lake: администрирование кластера

Время на прочтение4 мин
Количество просмотров2.4K

Тема администрирования кластера Cloudera достаточно широка и осветить ее в рамках одной статьи не представляется возможным. В этом посте остановимся на инструкциях по решению наиболее часто встречающихся задач, связанных с кластером и установленными в него сервисами, а для более глубокого погружения рекомендую обратиться к официальной документации и форуму. Там можно найти информацию практически по любому вопросу.



Читать дальше →
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Continuous design в разработке: методология и принцип

Время на прочтение7 мин
Количество просмотров5.1K

На практике случается, что вы разработали продукт, а после запуска клиенты используют его не так, как предполагалось. Затем выясняется, что задачи пользователя уже другие, и они идут вразрез с запланированным развитием продукта и вашим видением проекта. Почему?


На самом деле, вы работаете с задачей пользователя, которая не понята до конца и которая меняется под влиянием продукта. Это наталкивает на мысль, что продукт нужно доработать, причем в паре с клиентом. Так вы сразу обезопасите себя от создания ненужных решений, основанных лишь на гипотезах.


Я думаю, что лучше всего выстраивать коммуникацию с пользователем по принципу continuous design, о котором и пойдет речь в статье.


Читать дальше →
Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Spark SQL. Немного об оптимизаторе запросов

Время на прочтение10 мин
Количество просмотров16K

Всем привет. В качестве введения, хочется рассказать, как я дошел до жизни такой.


До того как встретиться с Big Data и Spark, в частности, мне довелось много и часто оптимизировать SQL запросы, сначала для MSSQL, потом для Oracle, и вот теперь я столкнулся со SparkSQL.


И если для СУБД уже существует множество хороших книг, описывающих методологию и «ручки», которые можно покрутить для получения оптимального плана запроса, то для Spark такого рода книг я не встречал. На глаза попадались больше статьи и наборы практик, причем больше относящиеся к работе через RDD/Dataset API, а не чистому SQL. Для меня одной из эталонных книг на тему оптимизации SQL является книга Дж. Льюис «Oracle. Основы стоимостной оптимизации». Что-то подобное по глубине проработки я и искал. Почему предметом исследования стал именно SparkSQL, а не API, лежащий в основе? Тут интерес был вызван особенностями проекта, над которым я работаю.



Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии4

Распределенное хранилище данных в концепции Data Lake: установка CDH

Время на прочтение7 мин
Количество просмотров5.8K

Продолжаем делиться опытом по организации хранилища данных, о котором начали рассказывать в предыдущем посте. На этот раз хотим поговорить о том, как мы решали задачи по установке CDH.



Читать дальше →
Всего голосов 8: ↑7 и ↓1+6
Комментарии11

Распределенное хранилище данных в концепции Data Lake: с чего начать

Время на прочтение12 мин
Количество просмотров9K
В мире энтерпрайза наступило пресыщение фронтовыми системами, шинами данных и прочими классическими системами, которые внедряли все кому не лень последние 10-15 лет. Но есть один сегмент, который до недавнего времени был в статусе «все хотят, но никто не знает, что это». И это Big Data. Красиво звучит, продвигается топовыми западными компаниями – как не стать лакомым кусочком?



Но пока большинство только смотрит и приценивается, некоторые компании начали активно внедрять решения на базе этого технологического стека в свой IT ландшафт. Важную роль в этом сыграло появление коммерческих дистрибутивов Apache Hadoop, разработчики которых обеспечивают своим клиентам техническую поддержку. Ощутив необходимость в подобном решении, один из наших клиентов принял решение об организации распределенного хранилища данных в концепции Data Lake на базе Apache Hadoop.
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии2

Высокие перегрузки: электронный архив на Alfresco ECM

Время на прочтение6 мин
Количество просмотров5.8K
Хотим поделиться опытом по автоматизации работ, связанных с фото-фиксацией грузов, в одной из самых крупных российских транспортных компаний. И рассказать о том, с какими вызовами пришлось столкнуться, и как мы их решали.

Задача фото-фиксации грузов на различных этапах транспортировки является типовой для транспортной компании. Сотрудники компании фотографируют груз, загружают изображение в ERP-систему, из которой он попадает в электронный архив (ЭА). Каждая фотография сопровождается метаинформацией: отделение отправитель, получатель, код и индекс рейса, и т.д. Основная задача электронного архива – организация гибкого, удобного и, главное, быстрого поиска фотографий по метаинформации за последние 3 года.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+7
Комментарии5

Информация

Сайт
www.neoflex.ru
Дата регистрации
Дата основания
Численность
1 001–5 000 человек
Местоположение
Россия