Обновить
84.06

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Yandex Data Proc для ML: ускоряем Embedding на Spark

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели3K

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

Читать далее

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.1K

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

Читать далее

[Перевод] Почему стоит начать писать собственные Spark Native Functions?

Время на прочтение5 мин
Охват и читатели2.5K

Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.

Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.

Кому интересно узнать, как писать Spark native функции - прошу под кат.

Читать далее

Как мы проанализировали 250,000 статей на VC, и поняли что делает посты успешными (возможно)

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели3.5K

Привет, habr! ?

Вы когда-нибудь задумывались, почему некоторые посты набирают тысячи просмотров, а другие остаются незамеченными? Ясно, что Content is King, но есть ли дополнительные факторы, которые влияют на успешность поста?

Мы решили не гадать, а действовать. ?

Соскрейпили все посты на VC, а затем посчитали корреляции, чтобы выяснить, что же на самом деле привлекает внимание аудитории.

Читать далее

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6K

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее

Как настроить Source коннекторы Kafka Connect для оптимизации пропускной способности

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.9K

Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.

Читать далее

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

Время на прочтение4 мин
Охват и читатели8.7K

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее

Создание карты подключений Elasticsearch + Fluent Bit + Nginx Ingress Controller

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.9K

Данная статья представляет подход к решению задачи сбора и агрегации метрик от Ingress Nginx Controller для извлечения геоданных с помощью GeoIP2 и их визуализации в Elasticsearch.

Читать далее

Как я проходила стажировку в отделе аналитических решений почти без опыта работы с данными

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели4.9K

Привет, меня зовут Луиза, я инженер данных в ЮMoney — работаю здесь уже год. Мы собираем данные, структурируем их, храним и создаём аналитические решения, например OLAP-кубы и дашборды. Департамент разделён на несколько команд, у каждой своя предметная область. За год я превратилась в крепкого джуна и не собираюсь останавливаться.

В этой статье расскажу, как я попала на стажировку, чем занималась в первые месяцы и что изучала, чтобы перейти на новый уровень. Хочу, чтобы моя история мотивировала не бояться откликаться на вакансии уровня мидл+, даже если у вас нет опыта в дата-инженерии, но есть желание развиваться. Может оказаться, что в компании ждали именно вас.

Читать далее

Фича стор, CLTV и как построить много моделей в короткий срок

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.4K

Условия задачи: дано число клиентов банка N, число банковских продуктов М, горизонт времени прогноза Т. Нужно посчитать ( Pij ).

Привет, меня зовут Игорь Дойников, в Альфе я CDS — Chief Data Scientist в Розничном Бизнесе. Моя команда строит модели машинного обучения для розничного бизнеса Альфа-Банка. В статье я расскажу как, собственно, эту задачу решать и зачем. Сначала пройдёмся по CLTV, как бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

Читать далее

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.9K

Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...

Читать далее

SPARK для «малышей»

Уровень сложностиПростой
Время на прочтение14 мин
Охват и читатели32K

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

Читать далее

Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели17K

С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.

Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.

Читать далее

Ближайшие события

Spark. План запросов на примерах

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели34K

Данных становится все больше. Важно уметь эффективно хранить и обрабатывать их для решения сложных бизнес-задач. Одним из первых шагов на пути к успешной стратегии является выбор технологии хранения, поиска, анализа и отчетности по данным. Как выбрать между базой данных, Data Warehouse и Data Lake? Рассмотрим ключевые различия и когда следует использовать каждое.

Читать далее

Геоаналитика в FineBI в действии: разбираем кейс Tele2 и подключаем “Яндекс”, Google и другие карты

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели5.1K

Привет, любознательные друзья данных! 

Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами Даша Путешественница Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*. 

Читать далее

Data Product Manager — кто это?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели2.5K

Менеджер по продукту данных: специалист, который управляет информацией

Данные, если подходить к их сбору и анализу корректно, представляют собой крайне важный ресурс для любой компании. И его важность сегодня только увеличивается, поскольку большинство организаций нацелены на непрерывный рост. Создание и применение эффективной стратегии по обработке данных – значимый шаг, который предстоит выполнить менеджеру по продукту данных (Data Product Manager). Рассказываем, какие ключевые навыки требуются такому специалисту и почему эта профессия приобретает актуальность в современном ИТ-мире.

Читать далее

Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели7.6K

В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.

Читать далее

Как подготовиться к своему первому собеседованию в России в IT сфере (краткое руководство к действию)

Время на прочтение4 мин
Охват и читатели4.3K

Если Вы учитесь в институте, только закончили его или просто хотите начать работать в IT сфере, то это статья для Вас, также она может пригодиться тем, кто уже имеет опыт работы , но испытывает некоторые трудности с поиском новой.

Важно понимать, что первые интервью могут с высокой вероятностью  быть неудачными, тут точно так же, как и везде, необходимо нарабатывать какой-то опыт, адаптироваться к соответствующему давлению. На первом своем интервью я так нервничал, что не мог правильно ответить даже на те вопросы, ответы на которые знал абсолютно точно.

В целом, все собеседования проходят примерно по одной и той же схеме. Я бы выделил 3 основных компонента, к которым стоит подготовиться перед любым собеседованием:

- самопрезентация (рассказ о себе)

- теория

- live coding

Читать далее

Python streaming (spark+kafka)

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7.4K

В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ

Читать далее