Как стать автором
Поиск
Написать публикацию
Обновить
82.14

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга

Начинаем вебинар по повышению производительности инфраструктуры

Привет, Хабр! В 12:00 по МСК проведем вебинар, где разберем, как эффективно использовать GPU в облаке для ML-проектов. Продакт-менеджер облачной платформы Selectel Антон Баранов расскажет, как оптимизировать производительность инфраструктуры и сократить расходы без потери качества. Присоединяйтесь!

Смотреть трансляцию:

на YouTube

в VK

Программа вебинара

  • Шесть способов сократить расходы на IT-инфраструктуру с GPU

  • Подбираем GPU под конкретную задачу. Разбор кейсов клиентов

  • Облако с GPU: обзор возможностей облачной платформы и доступных GPU-карт

  • Как выбрать подходящие карты в облаке и в MKS

  • Сокращаем сетевые задержки с помощью локальных SSD NVMe-дисков в облаке с GPU

  • Ответы на ваши вопросы

Кому будет полезно 

  • Техлидам и менеджерам ML-проектов: как выбрать оптимальную инфраструктуру.

  • Data-инженерам, MLOps-инженерам, DevOps-инженерам

  • Всем, кто работает с облачными ресурсами и хочет повысить ROI проектов.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Хабр, привет!

Завтра, 22 апреля, в 09:00 мск стартует ArenaDAY 2025 — крупнейшая конференция по управлению данными и аналитике. Мы понимаем, что в будний день не у всех получится включить видеотрансляцию, поэтому запускаем текстовую онлайн-трансляцию.

Вас ждёт:

  • Шесть тематических секций: «Бизнес-кейсы», «Продукты», «Гибридное хранилище», «Будущее», Data Governance и Investor Day; отдельная демозона с живыми показами решений и экосистемы Arenadata.

  • Кейсы от ВТБ, «Газпромнефти», МКБ, «Росатома», «Северстали», «МегаФона» и других лидеров.

  • Интерактивы и розыгрыши.

Сохраните этот пост в закладки — ровно в 09:00 здесь появится ссылка на текстовую трансляцию ArenaDAY. До встречи в онлайне!

 Ссылка на трансляцию: https://habr.com/ru/companies/arenadata/articles/902964/

Теги:
Рейтинг0
Комментарии0

Личный опыт использования Ubuntu как основной рабочей системы

В последнее время много постов про Linux в контексте использования в качестве рабочей системы, и так получилось, что мне не удалось установить Windows на свой рабочий компьютер, и я вспомнил про Ubuntu, на которой работал лет 15 назад.

Я Data Engineer, работаю удаленно, и у меня очень мало свободного времени, поэтому решаю задачи путем наименьшего сопротивления. То есть, если что-то не работает быстро, сразу перехожу на костыли или игнорирую по возможности.

Итак, Ubuntu 24.04.2 LTS установилась без вопросов на отдельный SSD. После установки я начал смотреть, какой софт для работы есть, а для какого софта нужен будет Wine или виртуальная машина с Windows. С удивлением обнаружил, что такого очень мало.

Железо и периферия работает исправно, включая Bluetooth-наушники с микрофоном.

Программы которые я использую:

  • Outlook Electron Client

  • Microsoft Teams (тоже Electron на базе Chromium)

  • Dbeaver + Azure Data Studio - для работы с базами данных

  • Postman + Bruno - всё что связанно с тестированием API

  • Libre Office - работает сносно

  • VS Code

  • Основной браузер Opera

  • Допольнительные браузеры (Firefox, Vivaldi, Brave, Chromium)

  • 1Password - хранилище паролей (рабочее)

  • Shutter для снимков экрана. Задача стояла в том, чтобы можно было сделать снимок области экрана и что-то нарисовать поверх, не включая отдельный редактор изображений.

  • Slack

  • Zoom

  • AnyDesk

  • draw.io для диаграм - работает плохо, но работает

  • battle.net который работает через Lutris, нормально запускает игры.

То что работает в виртульной машине на Windows

  • разные VPN - Forti/Checkpoint/Global Protect - даже если есть клиент под линукс, у клиентов в политиках безопасности стоит только подключения с Windows

  • Visual Studio + SQL Management Studio - в некоторых проектах используем SSAS (SQL Server Analysis Services) - под линукс не нашел как работать с ним

Не решенные проблемы

  • Переключение языков по Alt + Shift вызывает меню апликаций, закрываеться ещё одним нажатием на Alt.

  • Text Editor при перетаскивании с экрана на экран «плющит», буквально, потом через какое-то время отпускает

  • Иногда отваливаеться второй жесткий диск, лечиться перемонтированием

В общем я доволен, работает стабильно и шустро.

Конфигурация компьютера:

HP Z640 Workstation

  • Процессор - Intel® Xeon® E5-1630 v4 × 8

  • Память - 128 Gb

  • Графическая карта - NVIDIA GeForce GTX 760

  • Диски - система стоит на Samsung SSD 490 GB, дополнительный диск TOSHIBA 3 TB HDD

  • 3 экрана - 32" (FHD) + 27" (FHD) + 22" (2K)

  • tp-link AX3000 - WiFi + Bluetooth

  • Мышь - Logitech Lift Vertical Ergonomic

  • Клавиатура - Das Keyboard 3 Professional

  • Камера

  • Наушники с микрофоном - Logi Zone Vibe 100

Теги:
Всего голосов 5: ↑5 и ↓0+6
Комментарии5

Приключение Запроса в Царстве Данных: Как CATALIST Провёл SELECT через Опасности Оптимизации

Привет, друзья! С тех пор, как в моей жизни появился маленький человечек, я погрузился в мир сказок — читаю их каждый вечер. И вот подумал: а что, если оживить сухие технические термины через волшебные метафоры? Так родилась «Приключение SELECT в Царстве Данных» — история о том, как запрос проходит путь от строки кода до результата, встречая на пути оптимизаторов, шардинг-великанов и магию Catalyst’а.

О чём эта сказка?

  • Как CATALIST (наш рыцарь-оптимизатор) сражается с неэффективными планами.

  • Почему Shuffle — это бурная река, которую нельзя пересечь вброд.

  • Зачем Skew-великана нужно посыпать «солью».

Это не просто фантазия — под метафорами спрятаны реальные процессы Spark: парсинг, predicate pushdown, broadcast join и борьба с skew-данными.

1. Врата Валидации: "Ты ли ты?"
Запрос select id, name, s.salary from users u inner join salaries s where u.part_date = '2025-01-01' робко постучался в высокие врата Царства Данных. Стражник CATALIST в доспехах из кода Scala встретил его:
"Покажи свои намерения! Где твои таблицы? Совпадают ли имена колонок?"

SELECT дрожа протянул:
"Я ищу id, name из users и salary из salaries... И только за 2025-01-01!"

CATALIST раскрыл древний свиток Catalog:
— «users и salaries есть в хранилище. Но part_date… А, это партиция! Проходи, но держись пути — дальше Лес Логических Преобразований

Стражник толкнул тяжёлые врата, и запрос шагнул в густой лес, где деревья-операции сплетались в непролазные дебри.

2. Лес Логических Преобразований: "Сруби лишнее!"

Ветви операций JOIN и Filter обвивали тропу. CATALIST вынул топор Predicate Pushdown:
— «Фильтр по дате должен быть ближе к users! Зачем ждать JOIN?»

Удар! Дерево плана рухнуло, открыв путь:

TEXTJOIN  
  → Scan users (part_date = '2025-01-01')  // Фильтр переместился сюда!  
  → Scan salaries  

— «Теперь к Реке Shuffle! Но берегись — она бурная!»

Они вышли к бурлящей реке, где волны данных сталкивались в хаосе.

3. Река Shuffle: "Выбери правильный мост!"

— «Как перейти? — испугался SELECT. — Здесь же все утонем!»

CATALIST достал карту Статистики:
— «users после фильтра — 10 тыс. строк, salaries — миллион. Мост BroadcastJoin выдержит!»

Магический мост вспыхнул, соединив берега. Данные salaries превратились в светящиеся шары и разлетелись к исполнителям.

— «Вперёд, к Горам Физического Плана! Там рождается настоящая сила!»

За холмом возвышались остроконечные пики, где гномы-компиляторы ковали байт-код.

4. Горы Физического Плана: "Куй быстрее, куй умнее!"

В пещере Tungsten гномы кричали:
— «Никаких Java-объектов! Только примитивы!»

CATALIST бросил им логический план:
— «Превратите это в код! Да будет векторизация!»

Молоты застучали:

JAVAif (row.getDate(3) == 2025-01-01) {  // Фильтр по part_date  
  emit(row.getInt(0), row.getString(1));  // id и name  
}  

— «Теперь — в Долину Исполнения, где задачи становятся результатом!»

Они спустились в зелёную долину, где партиции данных складывались в аккуратные стопки.

5. Долина Исполнения: "Собери пазл!"

Исполнители в синих мантиях хватали партиции и кричали:
— «Task 1 готов! Task 2 завершён!»

Но вдруг из-за скалы выполз Skew-великан с мешком, где 90% данных висело на одном плече:
— «Не пройдёте! Разорву ваши партиции!»

CATALIST рассыпал волшебную Соль:
— «Пусть каждый ключ обретет случайный суффикс!»

Великан взревел и рассыпался на сотни мелких духов. Shuffle-река успокоилась.

6. Финал: "Свет знаний"

На краю долины ждал ResultTask с золотым свитком:
— «Данные собраны! Вот твой результат: /data/output/part-0000.snappy.parquet».

CATALIST кивнул:
— «Запомни: без Catalog — ты слеп, без оптимизаций — медлен, а без борьбы с skew — обречён!»

Мораль:
Даже самый простой запрос — это путешествие через:

  1. Валидацию (что ты есть?),

  2. Логические преобразования (как сократить путь?),

  3. Физический план (как сделать быстро?),

  4. Исполнение (как не утонуть в данных?).

🔗 Каждый этап связан: нельзя прыгнуть в реку Shuffle, не построив мост из физического Join, и не победить Skew-великана

Теги:
Рейтинг0
Комментарии0

Продолжаем делиться темами докладов конференции GoCloud 2025 ☁️

В первой части выступления мы напомним, что такое дата-платформа, зачем она нужна и из каких сервисов состоит. А еще расскажем про новые фичи и что у нас в планах. 

Ася Грибанова — руководитель направления разработки Evolution Data Platform в Cloud.ru

Во второй части доклада расскажем, что такое BI-система и как она помогает бизнесу в визуализации данных. За несколько простых шагов создадим инстанс Managed BI и покажем, как визуализировать данные, подключать источники и гибко настраивать дашборды. А еще на реальном кейсе разберем, как построить аналитику.

Константин Добратулин — старший python-разработчик BI в Cloud.ru

Трек: Инфраструктура и сервисы — про новые и популярные инструменты платформы Cloud.ru Evolution и то, как они помогают в решении задач.

📅 Когда: 10 апреля в 13:55 мск

👉 Зарегистрироваться

Какие еще темы мы подготовили для вас на GoCloud, смотрите в программе конференции

Теги:
Рейтинг0
Комментарии0

Основы дата-инженерии. Готовим данные для анализа с помощью ETL (видеозапись доклада)

В декабре 2024 наш Lead Analytics Engineer Даниил Джепаров выступил на вебинаре компании Simulative, где рассказал об основах дата-инженерии.

Ключевые вопросы в рамках доклада:

📌Основы ETL (Extract, Transform, Load)
📌Различия между пакетной и потоковой обработкой данных
📌Важность документации в data-проектах
📌Основные метрики качества данных
📌Лучшие практики мониторинга ETL-процессов

Материал будет полезен дата-аналитикам и инженерам уровней junior и middle, желающим научиться строить качественные потоки данных.

Запись доступна здесь:

VK
YouTube
RUTUBE

Смотрите и делитесь ссылкой!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Топ вопросов на собеседованиях по SQL. Что вам точно нужно знать для получения оффера?

Знание SQL — мастхэв при работе с базами данных в большинстве современных компаний. У нас в Сравни дата-специалисты используют SQL, взаимодействуя с множеством технологий и инструментов, от Snowflake, Greenplum и ClickHouse до Superset. При найме стажёров в наши технические команды, тестовое задание в большинстве случаев включает в себя проверку знаний по SQL.

Разумеется, важно понимать, какие именно аспекты этой предметной области наиболее существенны на практике. Какие теоретические знания и навыки, связанные с SQL, реально востребованы в компаниях и чего ожидают от специалиста в рамках его будущих задач. 

Чтобы помочь вам с этим, наш дата-инженер Владимир Шустиков подготовил цикл из 5 видео, в которых рассмотрел ключевые вопросы об SQL на собеседованиях. Материал составлен по мотивам прохождения десятков собеседований в ИТ-команды компаний. С его помощью можно не только подготовиться к интервью (как морально, так и практически), но и проверить себя: сопоставить свои знания про SQL с тем, что на самом деле ожидают от специалиста. 

Полезно будет дата-инженерам, аналитикам, а также бэкенд-разработчикам. 

Каждое видео посвящено отдельному блоку вопросов по SQL:

1. Топ вопросов на собеседовании по SQL — порядок выполнения запроса, виды команд, типы данных

2. Топ вопросов на собеседовании по SQL — логические и физические виды JOIN, оконные функции, EXPLAIN

3. Топ вопросов на собеседовании по SQL — NULL, Агрегация

4. Топ вопросов на собеседовании по SQL — задачи на JOIN, различие между TRUNCATE, DROP, DELETE

5. Топ вопросов на собеседовании по SQL — WHERE, HAVING, QUALIFY; подзапросы и CTE; сочетания запросов

Смотрите, углубляйте свои знания в SQL, получайте офферы!

ТГ-канал нашего инженерного сообщества Sravni Tech

Теги:
Всего голосов 16: ↑14 и ↓2+12
Комментарии1

Как работать с Apache Spark? Практический гайд (видео + материалы на GitHub)

В Сравни мы используем Apache Spark для загрузки сырых данных из источников.

У нас есть два вида загрузки:

  1. Batch-загрузка — когда данные грузятся один раз в какой-то период (час, день и так далее). Актуальна она, например, для данных по курсам валют: аналитикам достаточно знать курс валют на конкретный день, поэтому читаем раз в день данные по API с сайта ЦБ и грузим их в S3 (объектное хранилище) при помощи Python. Таких API достаточно много, они могут сильно различаться по количеству данных, поступающих с каждой. 

    Уже из S3 в Greenplum мы грузим все эти данные при помощи Spark. Фреймворк позволяет быстро трансформировать данные одновременно на нескольких машинах, так как все вычисления происходят в оперативной памяти.

  2. Потоковая загрузка, которая работает 24/7 (на то она и стриминг). Здесь мы имеем дело с данными, изменения в которых нам нужно видеть несколько раз в день. Данные в этом случае читаются из Kafka посредством Spark и сразу пишутся в Greenplum (параллельно скидываем файлы в S3, чтобы был бэкап).  

Порог входа в Spark выше, чем в SQL или Python, поскольку он требует знания и того, и другого. Плюс, когда начинаешь заниматься написанием трансформаций на Spark, возникают вопросы по оптимизации кода и правильной настройке ресурсов. Так как Spark — приложение, которое запускается на наших серверах, его надо уметь настраивать: примерно понимать, сколько потребуется выделить ядер процессора, оперативной памяти и количества executors (процессов для параллельной обработки).

Наш дата-инженер Евгений Виндюков полагает, что изучать Spark сразу с выделения ресурсов не стоит: лучше сперва научиться крутить таблички локально на одном компьютере. И только потом переходить на параллельную обработку на нескольких машинах.

Специально для тех, кто планирует ознакомиться с Apache Spark на практике, Евгений подготовил видео-гайд, который можно посмотреть здесь:

Плюс материалы на GitHub, чтобы вы могли не просто разобраться в Spark, но и запустить его на своём локальном ПК в режиме библиотеки или режиме кластера через docker compose.

Смотрите, изучайте, осваивайте Spark на практике. Надеемся, будет полезно!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Тестирование систем и движков массивно-параллельных вычиcлений

Все о подходах к тестированию, которые использует команда Data Sapience, и результатах сравнения движков и систем — в партнерском материале технического идеолога Lakehouse-платформы данных Data Ocean Nova. В центре внимания — гонка зайца Trino и антилопы Impala.

Гонка зайца Trino и антилопы Impala
Гонка зайца Trino и антилопы Impala

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Пишем эффективные аналитические запросытретья лекция курса в МГТУ им. Баумана

Третья лекция нашего курса «Deep dive into SQL and DWH» прошла 21 ноября — делимся видеозаписью!

Дата-архитектор Павел Ковалёв рассказал о внутреннем устройстве систем Greenplum и Clickhouse и возможностях, которые они предоставляют с точки зрения оптимизации запросов.

Посмотреть запись можно здесь:

Оставшиеся два занятия курса пройдут в формате очной практики. Видеозаписи трёх прошедших лекций доступны в отдельном плейлисте.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сегодня я хочу выложить в открытый доступ свою библиотеку на Scala. Библиотека реализует Directed Acyclic Graph (DAG) для выполнения задач внутри одного приложения (на замену Airflow и подобных не претендую :-)) и позволяет определять задачи с зависимостями, выполнять их в правильном порядке и обрабатывать исключения, которые могут возникнуть в процессе выполнения. Библиотека писалась через призму моих личных и профессиональных потребностей, поэтому не претендует на покрытие всех возможных кейсов, встречающихся в разработке вообще.

Use case:

Иногда возникает необходимость выполнять взаимосвязанные задачи/функции/классы в рамках одного приложения, где эти задачи могут быть частично параллелизованы, то есть их можно "собрать" в DAG для более эффективного использования ресурсов и повышения общей производительности. Например при обрабтке/загрузке данных или в event-driven приложении.

Особенности:

  • Управление задачами: Добавление задач с указанными зависимостями.

  • Гибкость: Выполенение всех или только некоторых задач (с сохранением зависимостей)

  • Обработка ошибок: Встроенная обработка ошибок с передачей исключений "наверх" для упрощенного их анализа.

  • Результаты выполнения задач: Возможность получения результата выполнения задач для дальнейшего их использования программным кодом.

Код, документация и инструкция по импорту и использованию доступны на GitHub.

Буду рад любым отзывам и предложениям по улучшению. Также не стесняйтесь задавать вопросы и заводить issue :-)

Теги:
Рейтинг0
Комментарии0

Пишем эффективные аналитические запросывторая лекция курса в МГТУ им. Баумана

Делимся лекциями курса «Deep dive into SQL and DWH» от Павла Ковалёва, дата-архитектора Сравни.

Вторая лекция прошла 14 ноября; предлагаем посмотреть её видеозапись.

Внутри — обзор инструментов построения DWH/Data Lake, в том числе: Hadoop, Spark, Trino, Databricks, Amazon Athena, Amazon Redshift и Google BigQuery.

Посмотреть можно здесь:

YouTube

RUTUBE

VK

Следующая лекция курса будет посвящена техникам оптимизации аналитических SQL-запросов и состоится уже в ближайший четверг, 21 ноября, с 17:25 до 19:00.

Присоединяйтесь в зуме!

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Пишем эффективные аналитические запросы: первая лекция курса в МГТУ им. Баумана

Делимся лекциями курса «Deep dive into SQL and DWH» от Павла Ковалёва, дата-архитектора Сравни.

Первая лекция прошла 7 ноября — предлагаем посмотреть её видеозапись.

Внутри лекции:

  • Обзор основных понятий курса (OLTP и OLAP, хранилище данных, его базовые слои, архитектуры обработки данных и т.д.)

  • Устройство DWH — на примере компании Сравни

  • Основы оптимизации аналитических SQL-запросов

  • Как решать проблемы с неэффективными запросами: практические кейсы

Посмотреть запись можно здесь:

YouTube

RUTUBE

VK

Следующая лекция курса, посвященная архитектурному обзору инструментов для построения DWH, пройдёт уже в ближайший четверг, 14 ноября, с 17:25 до 19:00. Присоединяйтесь в онлайне!

***

Больше информации о наших лекциях, митапах, статьях и других полезных материалах про ИТ, в тг-канале Sravni Tech.

Теги:
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

Ближайшие события

Привет! Я — Ося, разработчик в Инновационном Центре «Безопасный транспорт», ваш виртуальный проводник в мир технологий и разработки. В блоге рассказываю, как решаю сложные задачи и делюсь знаниями. Здесь мы будем разбираться в коде, обсуждать подходы к проектам и актуальные тренды в IT. Пишу о разработке, больших данных и инновационных технологиях.

Я — робот-осьминог и талисман ИЦ, который иллюстрирует разносторонность и многозадачность нашей команды. Мои 8 щупалец представляют различные направления работы, а 3 сердца обеспечивают высокую эффективность. Отсутствие скелета позволяет гибко адаптироваться к изменениям, а более 1000 рецепторов на щупальцах помогают мне воспринимать малейшие колебания в окружении.

Я способен погружаться глубоко в изучение вопросов, что помогает развиваться и искать новые решения. Подписывайтесь на обновления, и давайте вместе исследовать мир технологий!

Теги:
Всего голосов 4: ↑2 и ↓2+3
Комментарии0

Приглашаем на вечер оптимизации в бизнесе, продукте и технологиях в формате гаражной вечеринки

Соберёмся, чтобы делиться инсайтами, предлагать смелые решения, а ещё есть бургеры и подпевать рок-группе — всё для вдохновения и обмена опытом без границ.

Когда: 22 ноября в 18:00  

Где: Санкт-Петербург

О чём поговорим?

💡 18:30 – 18:55 | Оптимизация доставки в Самокате с помощью алгоритмов консолидации заказов

💡 18:55 – 19:35 | Дискуссия: Инновации vs. традиционные методы 

Трек 1: Как делаем организацию эффективнее

💡 20:00 – 20:25 | Как оптимизировать банкоматы, чтобы всегда хватало наличности

💡 20:25 – 20:50 | Оптимизация логистики: как вовремя доставлять продукты клиентам

💡 20:50 – 21:15 | Оптимизация категорий кэшбэка для удовлетворения интересов клиентов

Трек 2: Как оптимизация повышает лояльность

💡 20:00 – 20:25 | Математическая оптимизация для больших данных

💡 20:25 – 20:50 | Прогнозирование клиентского потока и оптимизация работы сотрудников

💡 20:50 – 21:15 | ML в HR: оптимизация подбора сотрудников

С 21:15 — вечеринка с музыкой, караоке и неформальным общением!

Зарегистрироватьсяhttps://alfa.me/s-Da9r 

А еще подписывайтесь на Alfa Digital, там много интересного о нашей корпоративной культуре и технологиях.

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Не время менять работу, AI специалисты всё ещё на коне.

Недавно вышла статья от одного из крупнейших международных консалтинговых агенств Robert Half, на тему какие профессии будут востребованы в ИТ сфере в 2025 году. 

Агенство прогнозирует что ИИ специалисты по прежнему будут занимать лидирующие позиции по востребованности и уровню зарплат. 

Так же представлены в алфавитном порядке 12 самых востребованных профессий на 2025 год. Из неинтересного там появилась новая профессия - Специалист по этике ИИ. 

А из интересного то что в список попали ИТ Бизнес-аналитики. 

Это подтверждает мои догадки о том что 2025 год будет годом в котором косты на Data Science будут срезать.

Список из 12 самых оплачиваемых ИТ профессий в США:

1. AI ethicist

2. AI product manager

3. Business analyst

4. Cybersecurity engineer

5. Data engineer

6. Database administrator

7. ERP integration manager

8. Machine learning engineer

9. Network engineer

10. IT Project manager

11. QA analyst 

12. Software engineer

Источник: https://www.roberthalf.com/us/en/insights/career-development/highest-paying-it-jobs

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Как Duolingo добилась успеха на рынке и причем тут аналитика

Duolingo — одно из самых популярных приложений для изучения языков (№1 по скачиванию в магазинах приложений). Вместо скучных уроков оно напоминает игру: прогресс, уровни, награды, упражнения мини-игры и др.

По данным компании, около 34 млн. человек используют Duolingo каждый день.

Но что стоит за этим успехом?

Один из ключевых принципов компании — "Тестируй всё". Постоянные эксперименты помогают Duolingo улучшать процесс обучения и находить новые решения для роста.

В любой момент в Duolingo могут проводиться несколько сотен A/B тестов одновременно. Экспериментируют со всем: от мелких изменений интерфейса до запуска крупных функций, как Лидерборды. Для A/B тестирования компания разработала собственный сервис.

➡ Как выглядят эксперименты в Duolingo: статья.

➡ Пример A/B тестирования: формирование привычки учиться регулярно: статья.

➡ Какие аналитические инструменты использует компания для анализа данных: статья.

О других принципах успеха Duolingo и работе в этой компании писала тут.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Data Ocean Nova. Next-gen платформа данных класса Lakehouse.

Что такое Data Ocean Nova? Ответ — в партнерском материале технического идеолога платформы. Вы узнаете об архитектуре, системе хранения данных, возможностях управления ресурсами и других особенностях решения, благодаря которым Data Ocean Nova стала одним из технологических лидеров рынка больших данных.

Читайте по ссылке

Data Lakehouse (Gemeni AI Generated)
Data Lakehouse (Gemeni AI Generated)

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

GenAI в 2024 году — важный двигатель рынка и возможность продемонстрировать лидерство

Узнайте о передовых инженерных подходах и лучших практиках от лидеров отрасли на GenAI Meetup от МегаФона, который пройдет 17 октября в головном офисе компании в Москве

MeetUP делится на два блока:
1️⃣ Технологии и 2️⃣ Бизнес. Мы ждем специалистов обоих треков!

А вас ждут:

🟢выступления практикующих AI-инженеров
🟢инструменты создания GenAI-приложений
🟢актуальные стратегии на рынке и реальные кейсы МегаФона, Яндекс Крауд, JSA Group и SberDevices

Узнать расписание и зарегистрироваться

Количество мест ограничено!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Хабр, привет!

Зовём вас встретиться и поговорить про Data Build Tool.

8 октября, то есть завтра вечером, соберёмся с Николаем Марковым, Data Platform Lead в Altenar, и Евгением Ермаковым, руководителем платформы данных в Toloka, и вместе обсудим:

➡ Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
➡ Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
➡ Как разные компании и команды применяют DBT для решения задач Data Governance?

Поговорим про особенности DBT, его преимущества, потенциальные сложности и ограничения, а также — про реальный опыт использования DBT в Toloka.

⭐ Когда: завтра, 8 октября в 19:00 мск
⭐ Регистрация — через бота.

Приходите!

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1