Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

DmKrg 25 апр 2024 в 09:08

Yandex Data Proc для ML: ускоряем Embedding на Spark

Сложный

9 мин

3K

Блог компании Банки.руData Engineering * Облачные сервисы * Машинное обучение * Big Data *

Туториал

Меня зовут Дмитрий Курганский, я Tech Lead команды MLOps в Банки.ру.
Мы работаем над тем, чтобы грамотно организовать и ускорить этапы жизненного цикла ML. В этой статье поделюсь нашим опытом применения Embedding: от запуска Яндекс Data Proc кластера через Airflow до оптимизации этапа применения Embedding с помощью Spark.
Материал в целом будет актуален для этапа применения (inference) любых моделей для больших наборов данных, работающих в batch режиме по расписанию.

Читать далее

+1

ArtemBoiko 25 апр 2024 в 06:25

Использование открытых форматов для строительных проектов набирает обороты. Забудьте об использовании API и плагинов

Простой

5 мин

6.1K

Открытые данные * CAD/CAM * Data Mining * Open source * Data Engineering *

Мнение

В 2024 году ни одна крупная компания в мире, работающая с CAD (BIM) данными, не получает доступ к данным из CAD (BIM) программ через API или плагины.

Все крупные компании, работающие с форматами CAD (BIM), работают с определенными SDK, а форматы, содержащие данные о строительных проектах становятся взаимозаменяемы.

Читать далее

+6

Ninil 24 апр 2024 в 09:34

[Перевод] Почему стоит начать писать собственные Spark Native Functions?

5 мин

2.5K

Scala * Big Data * Hadoop * Data Engineering *

Туториал

Перевод

Это мой вольный перевод статьи "Why You Should Start Writing Spark Custom Native Functions", которая вдохновила меня на некоторые собстенные изыскания по данной теме. Их результат я планирую опубликовать позже, а пока выношу на ваш суд этот перевод.

Статья на примере реализации функции по генератации UUID рассматривает, как писать Spark native функции, которые были бы "прозрачны" для Catalyst (в отличии от UDF, которые являются "черными ящиками" для него). Сравнение производительности ожидаемо показывает, что Catalyst Expressions значительно превосходят UDF при увеличении размера данных.

Кому интересно узнать, как писать Spark native функции - прошу под кат.

Читать далее

+5

diyor28 23 апр 2024 в 15:15

Как мы проанализировали 250,000 статей на VC, и поняли что делает посты успешными (возможно)

Простой

3 мин

3.5K

Python * Data Mining * Data Engineering *

Аналитика

Из песочницы

Привет, habr! ?

Вы когда-нибудь задумывались, почему некоторые посты набирают тысячи просмотров, а другие остаются незамеченными? Ясно, что Content is King, но есть ли дополнительные факторы, которые влияют на успешность поста?

Мы решили не гадать, а действовать. ?

Соскрейпили все посты на VC, а затем посчитали корреляции, чтобы выяснить, что же на самом деле привлекает внимание аудитории.

Читать далее

-3

Siphon 23 апр 2024 в 11:15

Временное хранилище данных на Apache Druid: почему это эффективно сработало для загрузки табличных файлов

Простой

7 мин

6K

Data Engineering * Хранение данных * Apache * Python *

Из песочницы

Всем привет! Меня зовут Амир, я Data Engineer в компании «ДЮК Технологии». Расскажу, как мы спроектировали и реализовали на Apache Druid хранилище разрозненных табличных данных.

В статье опишу, почему для реализации проекта мы выбрали именно Apache Druid, с какими особенностями реализации столкнулись, как сравнивали методы реализации датасорсов.

Читать далее

+6

xakassi 20 апр 2024 в 19:06

Как настроить Source коннекторы Kafka Connect для оптимизации пропускной способности

Средний

14 мин

6.9K

Веб-разработка * MySQL * Apache * Big Data * Data Engineering *

Туториал

Перевод

Привет, Хабр! Доводилось ли вам тратить долгие бесплодные часы в попытке настроить коннекторы Kafka Connect, чтобы добиться адекватного потока данных? Мне, к сожалению, доводилось. Представляю вашему вниманию перевод статьи "How to Tune Kafka Connect Source Connectors to Optimize Throughput" автора Catalin Pop. Это прекрасное руководство от Confluent, где подробно и с примером описывается, как настроить Source коннекторы.

Читать далее

+1

freQuensy23 20 апр 2024 в 11:53

Выбираем правильный инференс: Как мы сэкономили 70к $ на ЛЛМках

4 мин

8.7K

Машинное обучение * DevOps * Data Engineering *

Недавно ко мне обратились знакомые, которые активно впиливали LLM в своей продукт, однако их смущала стоимость такого решения - они платили около 8$/час за Huggingface inference Endpoint 24/7, на что уходили просто невиданные ~100 тысяч долларов в год. Мне нужно было заресерчить какие есть способы развертывания больших текстовых моделей, понять какие где есть проблемы и выбрать оптимальных из них. Результатами этого ресерча и делюсь в этой статье)

Читать далее

-3

Catemiko 19 апр 2024 в 13:15

Создание карты подключений Elasticsearch + Fluent Bit + Nginx Ingress Controller

Средний

6 мин

3.9K

Nginx * Data Engineering * Kubernetes * Системное администрирование *

Из песочницы

Данная статья представляет подход к решению задачи сбора и агрегации метрик от Ingress Nginx Controller для извлечения геоданных с помощью GeoIP2 и их визуализации в Elasticsearch.

Читать далее

+2

Luijjee 19 апр 2024 в 08:26

Как я проходила стажировку в отделе аналитических решений почти без опыта работы с данными

Простой

5 мин

4.9K

Блог компании ЮMoneyУчебный процесс в ITКарьера в IT-индустрииIT-компанииData Engineering *

Мнение

Привет, меня зовут Луиза, я инженер данных в ЮMoney — работаю здесь уже год. Мы собираем данные, структурируем их, храним и создаём аналитические решения, например OLAP-кубы и дашборды. Департамент разделён на несколько команд, у каждой своя предметная область. За год я превратилась в крепкого джуна и не собираюсь останавливаться.

В этой статье расскажу, как я попала на стажировку, чем занималась в первые месяцы и что изучала, чтобы перейти на новый уровень. Хочу, чтобы моя история мотивировала не бояться откликаться на вакансии уровня мидл+, даже если у вас нет опыта в дата-инженерии, но есть желание развиваться. Может оказаться, что в компании ждали именно вас.

Читать далее

+6

Sentient85 19 апр 2024 в 08:01

Фича стор, CLTV и как построить много моделей в короткий срок

Средний

10 мин

5.4K

Блог компании Альфа-БанкМашинное обучение * Финансы в ITData Engineering *

Кейс

Условия задачи: дано число клиентов банка N, число банковских продуктов М, горизонт времени прогноза Т. Нужно посчитать ( Pij ).

Привет, меня зовут Игорь Дойников, в Альфе я CDS — Chief Data Scientist в Розничном Бизнесе. Моя команда строит модели машинного обучения для розничного бизнеса Альфа-Банка. В статье я расскажу как, собственно, эту задачу решать и зачем. Сначала пройдёмся по CLTV, как бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

Читать далее

+15

avshkol 17 апр 2024 в 22:15

Восхитительная теория [якорных] баз данных от Ларса Рённбека

Средний

10 мин

7.9K

Big Data * Математика * Исследования и прогнозы в IT * Data Engineering * Хранение данных *

Мнение

Перевод

Обнаружил серию статей по принципам организации информации и базам данных от математика из Стокгольмского университета и с энтузиазмом перевожу. Моя уверенность в том, что реляционки с 3-й формой нормализации - лучшее, что придумало человечество, резко убавилась... Я бы назвал это "субъективной теорией информации", автор называет "Transitional modeling", но обычно это применяется под названием "якорная модель данных"...

Читать далее

+5

vladislav_shevchenko 17 апр 2024 в 13:57

SPARK для «малышей»

Простой

14 мин

32K

Блог компании Альфа-БанкHadoop * Data Engineering *

Туториал

Примеры кода на Python для работы с Apache Spark для «самых маленьких» (и немного «картинок»).

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объёмов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

Читать далее

+26

dasafyev 17 апр 2024 в 10:08

Как выбрать правильный сервер c подходящими для ваших нейросетей CPU/GPU

Простой

5 мин

17K

Блог компании HOSTKEYTensorFlow * Data Engineering * ВидеокартыBig Data *

С развитием генеративного искусственного интеллекта (ИИ) и расширением сфер его применения создание серверов с искусственным интеллектом стало критически важным для различных секторов — от автопрома до медицины, а также для образовательных и государственных учреждений.

Эта статья рассказывает о наиболее важных компонентах, которые влияют на выбор сервера для искусственного интеллекта, — о центральном и графическом процессорах (CPU и GPU). Выбор подходящих процессоров и графических карт позволит запустить суперкомпьютерную платформу и значительно ускорить вычисления, связанные с искусственным интеллектом на выделенном или виртуальном (VPS) сервере.

Читать далее

+5

val6789 15 апр 2024 в 06:12

Spark. План запросов на примерах

Средний

7 мин

12K

Data Engineering * Хранение данных * Big Data * Apache * SQL *

FAQ

Всем привет!

В этой статье возьмем за основу пару таблиц и пройдемся по планам запросов по нарастающей: от обычного селекта до джойнов, оконок и репартиционирования. Посмотрим, чем отличаются виды планов друг от друга, что в них изменяется от запроса к запросу и разберем каждую строчку на примере партиционированной и непартиционированной таблицы.

Читать далее

+8

Demin_Konstantin 12 апр 2024 в 15:29

Database, Data Warehouse и Data Lake: что это и когда следует использовать каждое?

Простой

4 мин

34K

Блог компании SmartupIT-инфраструктура * Терминология ITData Engineering *

Обзор

Данных становится все больше. Важно уметь эффективно хранить и обрабатывать их для решения сложных бизнес-задач. Одним из первых шагов на пути к успешной стратегии является выбор технологии хранения, поиска, анализа и отчетности по данным. Как выбрать между базой данных, Data Warehouse и Data Lake? Рассмотрим ключевые различия и когда следует использовать каждое.

Читать далее

+5

ak19 12 апр 2024 в 13:21

Геоаналитика в FineBI в действии: разбираем кейс Tele2 и подключаем “Яндекс”, Google и другие карты

Средний

19 мин

5.1K

Блог компании GlowByteГеоинформационные сервисы * Big Data * Визуализация данных * Data Engineering *

Обзор

Привет, любознательные друзья данных!

Сегодня поговорим о картах, данных и том, как они могут стать нашими лучшими союзниками в аналитике. С вами ~~Даша Путешественница~~ Александр Ларин, руководитель центра обучения и поддержки GlowByte и по совместительству лидер сообщества FineBI, и BI–команда офиса данных Tele2*.

Читать далее

+4

ChoohChoohChooh 11 апр 2024 в 09:50

Data Product Manager — кто это?

Простой

3 мин

2.5K

Блог компании RDPУправление продуктом * Data Engineering * Карьера в IT-индустрииУправление проектами *

Мнение

Менеджер по продукту данных: специалист, который управляет информацией

Данные, если подходить к их сбору и анализу корректно, представляют собой крайне важный ресурс для любой компании. И его важность сегодня только увеличивается, поскольку большинство организаций нацелены на непрерывный рост. Создание и применение эффективной стратегии по обработке данных – значимый шаг, который предстоит выполнить менеджеру по продукту данных (Data Product Manager). Рассказываем, какие ключевые навыки требуются такому специалисту и почему эта профессия приобретает актуальность в современном ИТ-мире.

Читать далее

+3

ProductStarMain 9 апр 2024 в 15:41

Меньше работы с людьми, больше работы с данными: кому подойдет мир аналитики

Простой

7 мин

7.6K

Блог компании ProductStarАнализ и проектирование систем * Big Data * Data Engineering *

Аналитика

Recovery Mode

В мире, где каждый клик, каждое взаимодействие и каждая транзакция превращаются в данные, способность понимать и интерпретировать этот поток информации становится все более ценной. Данные — это золото нашего времени, невидимый актив, который в правильных руках способен преобразовывать бизнес, науку и даже повседневную жизнь. В центре этой революции стоит профессия аналитика — ключевого игрока в процессе превращения сырых данных в ценные инсайты и стратегические решения. Об этом сегодня нам расскажет Алексей Бабенков.

Читать далее

+7

DmitriiReshetnikov 9 апр 2024 в 15:05

Как подготовиться к своему первому собеседованию в России в IT сфере (краткое руководство к действию)

4 мин

4.3K

Data Engineering * IT-компанииКарьера в IT-индустрииУчебный процесс в ITТерминология IT

Из песочницы

Если Вы учитесь в институте, только закончили его или просто хотите начать работать в IT сфере, то это статья для Вас, также она может пригодиться тем, кто уже имеет опыт работы , но испытывает некоторые трудности с поиском новой.

Важно понимать, что первые интервью могут с высокой вероятностью быть неудачными, тут точно так же, как и везде, необходимо нарабатывать какой-то опыт, адаптироваться к соответствующему давлению. На первом своем интервью я так нервничал, что не мог правильно ответить даже на те вопросы, ответы на которые знал абсолютно точно.

В целом, все собеседования проходят примерно по одной и той же схеме. Я бы выделил 3 основных компонента, к которым стоит подготовиться перед любым собеседованием:

- самопрезентация (рассказ о себе)

- теория

- live coding

Читать далее

+2

v_d_roman 8 апр 2024 в 22:12

Python streaming (spark+kafka)

Простой

4 мин

7.4K

Data Engineering * Микросервисы * Big Data * Python *

Из песочницы

В этой статье, посвященной Python streaming с использованием Spark и Kafka мы рассмотрим основные шаги по настройке окружения и запуску первых простых программ

Читать далее

+3

1 2 ...

37

38 39 ...