Как стать автором
Обновить

Компания Neoflex временно не ведёт блог на Хабре

Сначала показывать

От звука к смыслу: распознавание речи в видеоконтенте

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.3K

Распознавание речи из видео — это одна из ключевых задач в области обработки естественного языка, которая находит свое широкое применение в различных сферах, начиная от развлекательной индустрии и заканчивая научными приложениями.

В данной статье мы рассмотрим проект по распознаванию речи из видео, преимущества и недостатки данной разработки, а также посмотрим на то, как ее внедрение помогло ускорить работу аналитиков и разработчиков на проекте.

Подробнее
Всего голосов 15: ↑15 и ↓0+17
Комментарии8

Безопасность контейнерных сред: как отбить атаки киберпиратов

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров2.6K

В современном мире практически ни одна разработка программного обеспечения не обходится без использования средств контейнеризации, что связано с удобством хранения артефактов и зависимостей. Киберпираты следуют трендам DevSecOps, чтобы повышать энтропию атак на контейнерные среды. Кроме того, растет количество APT группировок, что является сегодня довольно значимой проблемой. В данной статье мы подробно рассматриваем техники злоумышленников, а также рассказываем о существующих тактиках защиты для того, чтобы разработчики или DevOps-инженеры смогли применять их в своей повседневной работе.

Читать далее
Всего голосов 7: ↑7 и ↓0+9
Комментарии2

AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1K

Небольшое интро, в котором многие себя узнают

Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка?

Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов? 

А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный.

И вопрос работы с оттенками является важным не только при подборе гардероба.

Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов;

Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика;

Индустрия красоты: подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента;

Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний;

Реклама: создание ярких и запоминающихся  материалов с учетом психологии восприятия цвета;

Автомобили и мотоциклы: поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров  — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии2

Как маскировка данных спасает вашу приватность

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.7K

Сколько личной информации о вас хранится в мире онлайна? От финансовых операций и медицинских досье до социальных сетей и корпоративных баз данных – данные каждого из нас оказываются в цифровом пространстве, привлекая внимание злоумышленников и вызывая беспокойство как у нас, так и у служб безопасности.

Одним из распространенных методов защиты является маскировка данных. Для более ясного понимания этого процесса давайте рассмотрим различные техники маскировки и попробуем разобраться, с чем это едят.

Данная статья нацелена на джунов и специалистов, которые только начинают погружаться в тематику.

Читать далее
Всего голосов 2: ↑1 и ↓10
Комментарии0

Задачи и боли пресейл-консультанта

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.1K

Neoflex — компания‑интегратор (некоторые «хаброэксперты» с оттенком пренебрежения называют такие компании «галерами»), которая решает конкретные проблемы заказчиков, занимается прикладной разработкой «под ключ». У нас в работе находится одновременно много проектов на разном стеке и постоянно появляются новые, так что сотрудники обычно не скучают, разгребая годами тонны легаси или разрабатывая очередное широко известное в узких кругах мобильное приложение.

Эта статья, надеюсь, будет интересна тем, кто работает на проектах, но не знает, с чего всё начинается и что предшествует старту проекта. А может быть, вы грустите над своими задачами и хотите присоединиться к команде с более прогрессивными идеями? :)

Чтобы проект успешно завершить, нужно его начать :‑). А чтобы начать, нужно его продать. Я вхожу в пресейл‑команду внутри центра компетенций Big Data Solutions в качестве технического консультанта (архитектор, разработчик, иногда и системный аналитик) и уже накопил интересный опыт наших «болей» на этом пути пред‑продаж и даже разработал с коллегами общий алгоритм действий для подобных команд.

С чего вообще начинается наша работа? Сейлз‑менеджеры общаются с действующему и потенциальными заказчиками, если находят что‑то по профилю нашего центра компетенций (построение/миграция DataLake/хранилищ или витрин данных и/или BI‑отчётности), приходят к нам с более или менее (чаще «менее», чем «более») чётко сформированными требованиями. Центр кометенций назначает одного ответственного за пресейл (пресейл‑консультанта), тот запрашивает себе в помощь экспертов от DevOps, аналитики, разработки и тестирования (как правило, пресейл‑консультант сам является экспертом в одной из этих областей), возможно, кого‑то ещё. Желательно, чтобы эксперты обладали большим проектным опытом и могли посвятить пресейлу несколько следующих дней: сроки на подготовку ответного предложения, как правило, очень сжатые.

Читать далее
Всего голосов 6: ↑4 и ↓2+4
Комментарии0

Истории

Особенности партиционирования в PostgreSQL и Apache Hive

Время на прочтение11 мин
Количество просмотров8.6K

Часто специалисты, работающие с классическими реляционными базами данных, например, с PostgreSQL, испытывают затруднения в работе при переходе на систему хранения больших данных типа Apache Hive. Это связано с непониманием того, как можно использовать в новой среде уже наработанные подходы и методы работы с данными.

В данной статье рассмотрены некоторые особенности использования языка SQL в реляционных СУБД и Apache Hive. Кроме того, проведен сравнительный обзор возможностей и подходов, а также применение партиционирования на практике.

Материал будет полезен специалистам младших и средних грейдов, которые используют в своей практике SQL, но имеют мало опыта в Hive или Postgres.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии22

Как оценить эффект от внедрения проекта?

Уровень сложностиПростой
Время на прочтение27 мин
Количество просмотров4.6K

Целью любого проекта, будь то разработка сайта, внедрение искусственного интеллекта или модернизация оборудования, является получение бизнес-результата. Поэтому для клиента важно понимать, какую выгоду он получит от внедрения проекта и как это отразится на его прибыли. Кроме того, разработчикам также необходимо оценить эффект от проекта по нескольким причинам: увеличение вероятности получения новых проектов, лучшее понимание потребностей клиента, повышение рыночной стоимости и моральное удовлетворение от значимости своей работы.

В статье показано применение таких методов оценки эффекта от внедрения проекта, как AБ-тестирование (классический подход, стратификация, CUPED), альтернативное прогнозирование, синтетический контроль и мэтчинг.

Читать далее
Всего голосов 8: ↑7 и ↓1+9
Комментарии0

Оптимизация хранения данных в Greenplum

Время на прочтение8 мин
Количество просмотров7.5K

В мире современной аналитики данных, где информация – это ключевой актив организации, база данных должна быть не только масштабируемой, но и высокоэффективной. В этом контексте Greenplum, мощная и распределенная система управления базами данных, стоит в центре внимания. Greenplum предоставляет подходящие возможности для хранения и анализа огромных объемов данных, но, чтобы добиться максимальной производительности и оптимальной управляемости, необходимо грамотно оптимизировать хранение данных.

Данная статья в первую очередь для тех, кто только начинает знакомство с оптимизацией в Greenplum и хочет разобраться на что стоит обратить внимание в первую очередь. Будут рассмотрены три ключевых аспекта: компрессию данных, распределение и партиционирование. Узнаем – как правильно применять эти стратегии, чтобы улучшить производительность запросов, снизить потребление ресурсов и повысить эффективность работы базы данных.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии7

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров8.7K

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость yi = f(xi), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x1, y1), (x2, y2) … (xn, yn), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=xi будут близки к экспериментальным данным. Приближение функции f(xi) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(xi).

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии8

Опыт внедрения UI CMAK для управления кластерами Kafka

Время на прочтение3 мин
Количество просмотров2.6K

Apache Kafka – это платформа для обработки потоков данных в реальном времени, которая позволяет эффективно передавать и обрабатывать огромные объемы данных. Не погруженным в технологию пользователям сложно настраивать и осуществлять мониторинг Kafka без специализированных инструментов с графическим интерфейсом.

В этой статье мы поделимся опытом внедрения такого инструмента и расскажем про CMAK.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии3

Как расширить компетенции аналитиков при работе с Big Data

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.9K

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием. 

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров1.9K

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Данный материал будет описывать опыт нашей команды по построению end-to-end рекомендательной ML-системы визуального поиска похожих товаров с помощью инструментов, предоставляемых облачной платформой Google Cloud Platform (далее –  GCP) и структурно будет состоять из трех частей, описывающих три этапа разработки: от простой реализации задачи к более сложной, или точнее – из двух с половиной, так как второй этап оказался не жизнеспособным, но обо всем по порядку.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Основы библиотеки Circe или простой JSON-парсер на Scala

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.9K

Всем привет!

Во время нашей работы часто приходится сталкиваться с таким форматом обмена данных как JSON, и на данный момент существует большое количество различных библиотек для JSON сериализации. Конечно, для любителей языка программирования Scala, которые хотят использовать преимущества этого языка, тоже есть такая библиотека – о ней и пойдёт речь в данной статье.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии1

Airflow vs NiFi: исследуем оркестратор для формирования витрин данных

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров8.3K

Сегодня концепция витрин данных является стандартом и используется повсеместно. Поэтому даже небольшим компаниям важно определиться с помощью каких инструментов они будут решать проблему оркестрации процессов построения витрин. Какой инструмент в условиях относительно небольшого бюджета позволит достигать поставленных целей? Этот вопрос мы и постараемся раскрыть в статье. Для этого рассмотрим два известных инструмента: Airflow и NiFi, а также постараемся выявить их сильные и слабые стороны.

Читать далее
Всего голосов 7: ↑3 и ↓4+1
Комментарии15

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань

ipywidgets: создаем графические приложения на базе Jupyter

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров7K

Jupyter Notebook – это крайне удобный инструмент для разработчика. Являясь дата-инженером, я использую его, как основную IDE. Единственным его ограничением является невозможность создания графических форм классическими методами, принятыми в Python. В этой статье я хочу поделиться лучшим способом решить эту проблему.

Читать далее
Всего голосов 5: ↑4 и ↓1+3
Комментарии1

Как подружить Spark и S3 для обработки файлов

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров3.9K

Всем привет!

В этой статье мы расскажем, как нам удалось настроить взаимодействие Apache Spark и S3 для обработки больших файлов: с какими проблемами пришлось столкнуться и как нам удалось их решить.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Apache Flink ML – прогнозирование в реальном времени

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.3K

Всем привет!

В этой статье рассмотрим применение библиотеки Apache Flink ML для построения конвейеров машинного обучения. Затем реализуем простой проект по прогнозированию поведения системы, а также ответим на вопросы: какие задачи Machine Learning подходят для Flink и какие особенности Flink делают его подходящим для использования в задачах Machine Learning.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Опыт работы с данными или с чем может столкнуться аналитик

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.7K

В этой статье хотелось бы погрузить вас в мир данных и вспомнить: какие встречались проекты, связанные с хранилищами и данными, какие задачи приходилось решать, а также какие навыки пригодились. 

Но вначале придется разобрать извечные вопросы: кто же такие аналитики, что такое данные и понять – должны ли они быть вместе?

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии7

Как Flink Table API упрощает разработку

Время на прочтение8 мин
Количество просмотров1.5K

Apache Flink является популярным фреймворком для обработки больших данных и аналитики в режиме реального времени. Одним из ключевых компонентов этого фреймворка является Table API, который предоставляет удобный и выразительный способ работы с данными в формате таблиц, аналогичный SQL.

Если вы разработчик, который хочет узнать больше о том, как использовать Apache Flink Table API для обработки потоковых данных, или если вы интересуетесь современными инструментами аналитики данных, эта статья для вас.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.2K

В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии0