Статьи / Закладки / Профиль neoflex / Хабр

@neoflex

Пользователь

Профиль Публикации 50Комментарии 62Закладки 5

neoflex 3 ноя 2023 в 17:12

Как расширить компетенции аналитиков при работе с Big Data

Средний

5 мин

4.7K

SQL*Big Data*Блог компании Neoflex

Мнение

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием.

neoflex 13 окт 2023 в 14:27

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Средний

11 мин

1.6K

Python*Google Cloud Platform*Блог компании NeoflexОблачные сервисы*

Обзор

Построение ML-пайплайна для рекомендательной системы с помощью Google Cloud Platform

Данный материал будет описывать опыт нашей команды по построению end-to-end рекомендательной ML-системы визуального поиска похожих товаров с помощью инструментов, предоставляемых облачной платформой Google Cloud Platform (далее – GCP) и структурно будет состоять из трех частей, описывающих три этапа разработки: от простой реализации задачи к более сложной, или точнее – из двух с половиной, так как второй этап оказался не жизнеспособным, но обо всем по порядку.

neoflex 18 авг 2023 в 15:35

Опыт работы с данными или с чем может столкнуться аналитик

Простой

8 мин

2.9K

Хранение данных*Блог компании NeoflexData Engineering*

✏️ Технотекст 2023

В этой статье хотелось бы погрузить вас в мир данных и вспомнить: какие встречались проекты, связанные с хранилищами и данными, какие задачи приходилось решать, а также какие навыки пригодились.

Но вначале придется разобрать извечные вопросы: кто же такие аналитики, что такое данные и понять – должны ли они быть вместе?

neoflex 20 янв 2022 в 15:54

Области применения инструмента Apache Sqoop

8 мин

SQL*Apache*Hadoop*Блог компании Neoflex

Введение

Часто перед дата-инженерами ставится задача по миграции данных из какого-либо источника или системы в целевое хранилище. Для этого существует множество различных инструментов. Если говорить про платформу Big Data, то чаще всего у разработчиков на слуху Apache NiFi или ETL-задачи, написанные на Spark, ввиду универсальности этих инструментов. Но давайте предположим, что нам необходимо провести миграцию данных из РСУБД в Hadoop. Для подобного рода задач существует очень недооцененный пакетный ETL-инструмент – Apache Sqoop. Его особенность в следующем:

Облегчает работу разработчиков, предоставляя интерфейс командной строки. Для работы с этим инструментом достаточно заполнить основную информацию: источник, место назначения и детали аутентификации базы данных;
Автоматизирует большую часть процесса;
Использует инфраструктуру MapReduce для импорта и экспорта данных, что обеспечивает параллельный механизм и отказоустойчивость;
Для работы с этим инструментом требуется иметь базовые знания компьютерной технологии и терминологии, опыт работы с СУБД, с интерфейсами командной строки (например bash), а также знать, что такое Hadoop и обладать знаниями по его эксплуатации;
Относительно простая установка и настройка инструмента на кластере.

Выглядит любопытно? Но что на счёт вышеупомянутой задачи по миграции данных? Давайте разбираться.

Читать дальше →

-1

neoflex 28 окт 2021 в 16:43

Миграция данных из различных RDBMS в HADOOP

11 мин

5.3K

SQL*Apache*Hadoop*Блог компании Neoflex

В статье будет рассмотрен процесс экспорта данных в Hadoop из различных РСУБД посредством фреймворка Spark. Для взаимодействия с фреймворком Spark будет использован язык программирования Python с применением api pySpark.