Как стать автором
Обновить
92.28

Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

Сначала показывать
Период
Уровень сложности

Функциональные зависимости в таблице (удобный форк FDTool для python3)

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1K

Все мы часто работаем с табличными данными. С первого взгляда таблица - это просто. Строчки, колонки, шапка. Но когда долго работаешь с ними, понимаешь, что архитектура таблицы - довольно сложная тема. Однако именно понимание архитектуры позволяет эффективно работать со сложными большими таблицами.

В статье поговорим про functional dependencies и про python библиотеку работы с ними - FDTool.

Читать далее

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Время на прочтение10 мин
Количество просмотров3.1K

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

Читать далее

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Время на прочтение7 мин
Количество просмотров1.7K

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

Время на прочтение6 мин
Количество просмотров685

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Количество просмотров4.4K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Будь T-shape

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.2K

Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными.

Почему важно быть не только специалистом в своей области, но и понимать, как работают другие направления? Почему T-shape подход лучше узкой специализации или полной универсальности?

Читать далее

Как LLM может валидировать данные

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.9K

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись. 

Читать далее

Путь разметки данных для NER: от Open Source до Prodigy

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.7K

Распознавание именованных сущностей (Named Entity Recognition, NER) — это одна из самых востребованных задач в обработке естественного языка (NLP). Чтобы создать качественную модель для NER, требуется тщательно размеченная обучающая выборка, а процесс её создания может занять много времени и ресурсов. В этой статье я расскажу о своём пути разметки данных, начиная с использования Open Source инструментов и переходя к Prodigy, профессиональному инструменту для создания обучающих наборов данных.

Читать далее

История Data Literacy в России

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1K

Привет Хабр! Это продолжение истории о развитии «Культуры работы с данными». Первая статья была о том, как данный термин вообще появился в России. Итак, у нас есть план продаж идея, как сделать использование аналитики в компании массовым, тем самым увеличив охват и глубину использования аналитических инструментов в компании (и мы все знаем, что это за «аналитический инструмент»), остается проверить эту идею на практике.

Очевидно, что самый простой способ — это узнать у наших текущих заказчиков, у которых уже были достаточно крупные инсталляции, не нужна ли им тысяча — другая лицензий бесплатно? Ну, там, туда — сюда раздать, потестировать... вдруг что‑то да приживется? Кстати, первый, кто сообразил что это «золотая жила», и даже пытался нам самим это рассказать — был Иван Черницын, Начальник управления аналитических решений, технологий больших данных и искусственного интеллекта Дирекции региональных продаж ПАО «Газпром нефть» — большое ему за это Спасибо: он много рассказывал на конференциях про использование Qlik внутри «Газпром нефти», в частности — про работу с большими инсталляциями. Это нам помогло и с другими заказчиками, но больше ни один «нефтяник» на Qlik даже не взглянул, наоборот, видя насколько успешно стало использование данного инструмента и слыша «все все увидели, стало все открыто, все говорим на одном языке» — все остальные бегали от нас, как от огня..

Читать далее

Что такое Data Driven подход

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров6.5K

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.

Читать далее

Семантическая сегментация: самый полный гайд 2024

Время на прочтение10 мин
Количество просмотров3.8K

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Количество просмотров2.5K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

Что такое DWH?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров27K

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов 

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться

Читать далее

Ближайшие события

Atlas: Как реконструировать 3D сцену из набора изображений

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.7K

Всем привет! Если вы увлекаетесь 3D-технологиями или просто хотите узнать больше о современных методах создания трехмерных моделей, вам точно стоит прочитать эту статью. Мы погрузимся в метод Atlas — уникальный способ 3D-реконструкции сцены на основе всего лишь 2D-изображений. Вы узнаете, как линейная регрессия и усеченная знаковая функция расстояния (TSDF) могут значительно упростить процесс моделирования, обеспечивая более точные результаты без необходимости использования карт глубины.

Мы рассмотрим ключевые концепции, такие как извлечение признаков с помощью 2D-CNN и превращение их в воксельные объёмы, а также узнаем, как 3D-CNN уточняет эти признаки для более глубокого понимания сцены. Даже если вы не знакомы с терминологией, я постараюсь объяснить всё доступным языком.

Читать далее

5 способов оптимизации функций в Python

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.2K

Всегда полезно уметь ускорить выполнение кода на python, особенно если мы имеем дело с большими объемами данных или часто вызываемыми функциями. 

В этой статье мы рассмотрим 5 простых, но эффективных способов оптимизации функций в Python, которые помогут вам сделать ваш код быстрее и эффективнее.

Ускорить свой код!

Инфраструктура для data engineer Kafka

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.8K

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать далее

Кто такой Data Engineer | Дата Инженер

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4K

В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии

Читать далее

Как с помощью supervised fine-tuning кастомизировать LLM

Время на прочтение7 мин
Количество просмотров3.3K

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу.

Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно.


Сравнение предварительного обучения LLM и fine-tuning

Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP.

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.
Читать дальше →

Yandex SpeechSense: STT для тех, кто преисполнился

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.8K

В рамках проекта отдела качества мы анализируем работу продающих менеджеров по SLA (Service Level Agreement — соглашение об уровне обслуживания, что описывает параметры предоставляемой услуги). И решили протестировать несколько инструментов speech-to-text для транскрибации звонков. Среди тройки финалистов оказался и яндексовский SpeechSense, о нем и пойдет речь в статье.

Перед запуском

Pre Requisites: macOS, Python 3.10

Документация у SpeechSense Getting Started, мягко говоря, дырявая, и мне потребовалось также продираться через рекомендации саппорта, логи GitHub официального репозитория и бесполезные советы ChatGPT в течение нескольких часов.

Читать далее

Alerting Apache Airflow, уведомления в телеграм

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.3K

Небольшое отступление.
Работая работу, вдруг, появилась необходимость познакомиться с таким инструментом, как Apache Airflow. Задачу дали простую - нет никаких уведомлений в DAG'ах, при сбое необходимо уведомлять. Так как про этот сервис я только "слышал", уверенных знаний я показать даже сейчас, боюсь, не смогу. Зато смогу поделиться с вами простым кодом оповещения, который поможет вам не придумывать велосипед и воспользоваться (а то и улучшить) текущим. За основу я взял статью на Хабре, само собой официальная документация и другие открытые источники.

Данный alerting предназначен для любых версий, но если вы хотите использовать преимущества Apache Airflow на полную, то при версии >= 2.6.0 лучше читать статью выше.

Если вы здесь, скорее всего, вы уже примерно представляете что такое Apache Airflow, таски (джобы) и даги, поэтому не буду вдаваться в подробности и сразу перейду к сути.
Для начала я советую вам повторить (а в будущем и превзойти, если нужно!) текущую конфигурацию.

Для того чтобы понять, работают ли уведомления, напишем простейший dag со сломанной таской.

Читать далее