Все потоки

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

@ant_sol 28 мар в 10:16

Self-Service ETL vs Power Query: чем отличаются загрузчики Visiology и Power BI

Простой

7 мин

1.2K

Визуализация данных * Microsoft Azure * Data Engineering *

Из песочницы

Вопрос, чем заменить Power BI, стал актуален для многих пользователей одной из самых популярных BI-платформ. С точки зрения синтаксиса DAX и удобства работы с моделью данных наиболее очевидной альтернативой является Visiology. Но у этой платформы до недавнего времени не было своего ETL-инструментария. Недавно вендор представил свой Self-Service ETL, и у меня возник логичный профессиональный интерес к его тестированию. В этой статье я делюсь своими исследованиями возможностей SS ETL от Visiology по сравнению с Power Query.

Читать далее

+13

@kunitsynpv 27 мар в 12:48

Частые ловушки в экспериментах машинного обучения — рассказываем, что следует знать

Простой

5 мин

2K

Блог компании Первая грузовая компания (ПГК)Анализ и проектирование систем * Машинное обучение * Учебный процесс в ITData Engineering *

Мнение

Привет, Хабр! Я Павел Куницын, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы занимаемся разработкой цифровых продуктов в сфере железнодорожных грузоперевозок: интерактивной карты вагонного парка, оптимизатора ремонтов и других решений. В большинстве из них мы применяем машинное обучение.

О том, как мы подходим к этому, я и мои коллеги рассказываем в нашем блоге на Хабре. Например, мы работаем с MLflow, который помогает анализировать результаты и вести учет экспериментов. Но несмотря на доступную автоматизацию, на этапе экспериментов могут возникать определённые сложности. Расскажу о наиболее частых проблемах.

Читать далее

+13

@Lujin1234567890 21 янв в 04:16

Как я захотел проверить родинку на меланому, а в результате создал бесплатное приложение

Простой

2 мин

1.8K

Big Data * Data Engineering * Google App Engine *

Из песочницы

Рак кожи, в частности меланома, – одна из самых опасных онкологических болезней. Ранняя диагностика значительно повышает шансы на успешное лечение. Но несмотря на это, большинство приложений, которые я нашел в PlayStore для анализа кожи оказались неожиданно громоздкими и дорогими. Казалось бы, что может быть проще формулы — нажми на кнопку, получишь результат? Вот и я так думал в поисках нужного приложения. Но, каждый раз приходилось заполнять профиль и анкеты только для того, чтобы оказаться перед экраном с реквизитами для оплаты. В итоге это вдохновило меня на создание бесплатного и простого в использовании приложения.

Читать далее

+13

@arniksup 26 ноя в 15:47

DAT: новый способ гибридного поиска в RAG с динамической настройкой альфа-параметра

Средний

15 мин

8.5K

Поисковые технологии * Машинное обучение * Искусственный интеллектData Engineering *

Из песочницы

Перевод

Привет, Хабр! Недавно у меня появилась задача - собрать RAG-систему для интернет-энциклопедии. В поисках решения я вышел на новый подход к гибридному RAG - “DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation” (Динамическая настройка Альфа-параметра для гибридного поиска в RAG).

Поиск по Хабру и Рунету показал, про подход DAT на русском языке еще не рассказывали, поэтому спешу поделиться находкой с вами и обсудить преимущества и недостатки этого метода. Эта статья - упрощённый пересказ научной работы. Материал будет интересен как продвинутым, так и начинающим разработчикам RAG-систем.

Читать далее

+12

@EvgenyVilkov 7 ноя в 09:12

Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность

Средний

8 мин

6.9K

Блог компании Data SapienceBig Data * Data Engineering * Базы данных * Высоконагруженные системы *

Мнение

Недавно на Хабре вышла статья с громким заголовком «Бенчмарк lakehouse‑движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех». В своей статье авторы из Кверифай Лабс выбрали методику TPC‑DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.

Читать далее

+12

@StanislavRG 17 сен в 09:43

Spark Connect. А нужны ли перемены?

Простой

10 мин

4.8K

Блог компании ArenadataBig Data * Data Engineering * Apache * Базы данных *

Обзор

Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Apache Spark давно и прочно занял место одного из ключевых инструментов в арсенале инженеров и дата-сайентистов, работающих с большими данными. Его способность быстро обрабатывать огромные объёмы информации, гибкость за счёт поддержки множества языков (Python, Scala, Java, SQL) и возможность решать самые разнообразные задачи — от сложных ETL до машинного обучения и стриминга — делают его незаменимым инструментом в мире анализа данных.

Читать далее

+12

@VGcom 10 сен в 07:05

Что стоит за дистрибуцией Greenplum?

Средний

13 мин

4.7K

Блог компании BegetData Engineering * PostgreSQL * SQL * Базы данных *

Что известно про Greenplum?
Это MPP система на базе PostgreSQL, которая нужна, чтобы работать с большими объемами данных и делать OLAP. Отлично, но лично меня не устраивает это поверхностное знание, хочется узнать, что внутри. Какие алгоритмы использует Greenplum в своих процессах. Я хочу начать с дистрибуции, и приглашаю вас с собой в это путешествие.

Что внутри?

+12

@SSP_blog 27 авг в 07:07

Рецензия на книгу «Изучаем Data Science: обработка, исследование, визуализация и моделирование данных с помощью Python»

Простой

18 мин

6.8K

Блог компании SSP SOFTПрофессиональная литература * Учебный процесс в ITАнализ и проектирование систем * Data Engineering *

Мнение

Книг по Data Science в последние годы выходит просто море — от толстых академических учебников, перегруженных формулами, до популярных «лайтовых» пособий, обещающих образно говоря, за неделю научить предсказывать курс биткоина. Но далеко не каждая книга способна удержаться в золотой середине: быть одновременно достаточно практичной, понятной и при этом содержательной. Русское издание «Изучаем Data Science» как раз из таких примеров, на которые можно порекомендовать обратить внимание (хотя формул здесь тоже хватает).

Читать далее

+12

@iximy 13 авг в 02:59

Hybrid RAG: методы реализации. Часть 1 — Поиск

13 мин

7.5K

Big Data * Data Engineering *

С ростом популярности Retrieval-Augmented Generation (RAG), как архитектуры для построения систем генерации контента на основе извлечённых данных, стало очевидно, что односложный подход к выбору источников знаний ограничивает качество результатов. В этой связи особый интерес представляют Hybrid RAG подходы, сочетающие различные методы поиска и представления данных, в целях улучшения полноты, точности и релевантность ответа.

В данной статье я поделюсь своим опытом в реализации Hybrid RAG систем, его архитектуры и практических методов реализации.

Читать далее

+12

@mipt_digital 16 июл в 09:00

Matrix Reloaded: зачем дата-сайентисту линейная алгебра

9 мин

3.2K

Блог компании Центр «Пуск» МФТИМашинное обучение * Математика * Data Engineering * Учебный процесс в IT

Обзор

Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики.

Читать далее

+12

@alfredlao 30 июн в 07:05

Мой ответ Андрею Карпаты или зачем нам Когнитивный Инженер

5 мин

1.6K

Искусственный интеллектМашинное обучение * Data Engineering * Будущее здесьКарьера в IT-индустрии

Недавний тезис Андрея Карпаты о замене термина prompt engineer на context engineer получил широкую поддержку в профессиональной среде. Действительно, промпт это лишь малая часть взаимодействия с LLM: краткая инструкция, команда или запрос. А вот построение контекста, в который этот промпт попадает, уже куда более сложная инженерная задача.

Читать далее

+12

@alfredlao 15 июн в 05:33

Агенты. Деньги. Бизнес и Работа

Простой

6 мин

609

Информационная безопасность * IT-компанииData Engineering * Искусственный интеллектНаучно-популярное

Дайджест

По материалам Fast Company, Venture Beat, CIO, NY Times, New Scientist, Wired, McKinsey и других ресурсов. Минимум булшита, максимум инсайтов.

Решается судьба будущего интернета: станет ли он открытым пространством для всех или превратится в сеть закрытых экосистем, контролируемых Big Tech...

ChatGPT на пике растет со скоростью 1 000 000 пользователей за пару часов...

Читать далее

+12

@Alxxx84 21 мая в 12:12

СIM-модель. Идеальное решение для унификации информационного обмена в энергетике?

Простой

11 мин

1.3K

Блог компании СИГМАData Engineering * IT-компанииАнализ и проектирование систем * Распределённые системы *

Всем привет! Меня зовут Александр, и я хочу поделиться опытом использования CIM-модели и моделирования её расширений при разработке интеллектуальной системы учета электроэнергии. На самом деле материалов по этой теме у нашей команды накопилось достаточно — хватит на целую серию статьей. Начну с основ. В чем особенности рынка электроэнергетики, почему важно обеспечить унифицированный обмен данными между его участниками и как в этом помогает CIM? Давайте разбираться.

Читать далее

+12

@MrSotnik 25 апр в 09:16

Full-stack в аналитике: почему это будущее Data Science?

Средний

5 мин

5.3K

Data Engineering * Big Data * Python * JavaScript *

Из песочницы

Привет.

Представьте: вы запилили нейросеть, которая определяет котиков на фото с точностью 99.9% (оставшиеся 0.1% — это когда хомяк притворяется котом). Воодушевлённый результатом, бежите к руководству — а там оказывается, что:

Читать далее

+12

@SPogorelskiy 15 апр в 10:05

Борьба с BIM-коллизиями в инженерных системах или история про создание плагина

Средний

7 мин

1.8K

Блог компании КРОКHTML * XML * Data Engineering * Инженерные системы *

Из песочницы

Привет, друзья и коллеги по инженерному делу и проектированию! Меня зовут Сергей Погорельский, и я работаю в компании КРОК в качестве эксперта по автоматизации инженерных систем. Работаю с BIM-технологиями 6 лет и недавно защитил диссертацию на эту тему.

В этой статье я расскажу вам о том, как мы пришли к разработке собственного плагина по работе с коллизиями и как научились их побеждать в десятки раз быстрее, чем раньше.

Читать далее

+12

@kirillsergeev0102 20 мар в 12:27

Дедупликация объявлений: как мы боремся с одинаковыми размещениями

Сложный

13 мин

1.8K

Блог компании ЦианМашинное обучение * Алгоритмы * Data Engineering * Big Data *

Туториал

Привет! Меня зовут Кирилл Сергеев, я ML-инженер в Циане. В этой статье я расскажу, как мы решили задачу дедупликации объявлений о недвижимости, разработав систему на основе трёх моделей. Эта система автоматически находит и объединяет дублирующиеся объявления, помогая пользователям видеть только актуальную и уникальную информацию.

Материал будет полезен ML-инженерам и специалистам по обработке данных, которым интересно, как мы подошли к решению этой задачи: какие методы использовали, какие проблемы возникли и как мы их преодолели.

Читать далее

+12

@patykosh 26 дек 2024 в 07:00

Дата-контракты: как мы научили жить дружно источники и потребителей данных

Средний

7 мин

3.1K

Блог компании МТСАнализ и проектирование систем * Big Data * Data Engineering * Хранение данных *

Всем привет! На связи Патрисия Кошман, руководитель группы по управлению данными и эксперт по управлению метаданными, и Аксинья Ласкова, эксперт по практикам качества данных из МТС.

В нашей компании порядка 400 разных продуктов, и мы часто сталкиваемся с проблемой синхронизации данных между ними. Легкое изменение в структуре источника может привести к тому, что сломается сразу несколько систем. Один из вариантов их синхронизации — дата-контракты. Они позволяют достичь взаимопонимания между участниками обмена данных, обеспечить их правильную передачу и интерпретацию. В этом посте мы расскажем, как мы пришли к идее внедрения дата-контрактов, что нам это дало и как их можно автоматизировать.

Читать далее

+12

@ph_piter 28 окт в 11:04

Книга: «Потоковые базы данных»

2 мин

12K

Блог компании Издательский дом «Питер»Профессиональная литература * Программирование * Базы данных * Data Engineering *

Привет, Хаброжители! В наши дни приложения реального времени стали нормой. Но для построения корректно работающей модели требуется, чтобы данные обрабатывались на лету и анализировались с низкой задержкой. Из этой практической книги инженеры, архитекторы и аналитики данных узнают, как использовать потоковые базы данных для создания решений, действующих в режиме реального времени.

Читать далее

+11

25 сен в 09:10

Ваш грейд, стек и немного боли: опрос для data-специалистов

1 мин

393K

Блог компании X5 TechData Mining * Машинное обучение * Искусственный интеллектData Engineering *

Приветствуем всех коллег по цеху!

Мы в X5 Tech запускаем опрос, чтобы лучше понять, как живёт сообщество специалистов по работе с данными: какие инструменты используете, какие вызовы встречаете в работе и о чём мечтаете в свободное время.

Если ваша работа связана с данными, помогите нам узнать вас и ваших коллег лучше — пройдите наш опрос. А мы, в свою очередь, проанализируем ваши ответы и поделимся интересными инсайтами о data-специалистах на отдельном лендинге и расскажем об интересных кейсах по управлению данными из жизни data-сообщества X5.

Пройти опрос

+11

@select_zvezdo4ka_from 14 авг в 13:00

ClickHouse не тормозит, но теряет данные. Часть 3 — материализованные представления

7 мин

6.3K

Серверное администрирование * Базы данных * Big Data * Data Engineering * NoSQL *

Туториал

ClickHouse не тормозит, но теряет данные. Набор простых действий с объяснениями, позволяющий избежать потери данных.

Читать далее

+11

5

6 7 ...