Data Engineering *

Обсуждаем вопросы сбора и подготовки данных

СтатьиПостыНовостиАвторыКомпании

skillfactory_school 9 авг 2024 в 11:52

Transfer learning: подробный гайд для начинающих

Средний

13 мин

5.8K

Блог компании SkillfactoryМашинное обучение * Data Engineering *

FAQ

Recovery Mode

Вместе с Марией Жаровой, Data Scientist в Альфа-Банк, подготовили гайд по трансферному обучению.

Разбираем основные принципы, механизмы и инструменты TL, рассказываем, где и как его используют, и даем конкретные кейсы для тренировки.

coresky 9 авг 2024 в 10:59

Yaml — король мета-описаний

Средний

11 мин

6.7K

PHP * JavaScript * Программирование * HTML * Data Engineering *

На Хабре, было несколько статей о Yaml, но мне кажется все они однобоки и не раскрывают его истинную природу. Я попробую это исправить и рассказать о Yaml в положительном контексте. Не буду вновь описывать детали синтаксиса стандартного Yaml, в Интернете есть много материалов на эту тему. Их можно найти и на Хабре, в том числе, по ссылкам из этой статьи. Материал ориентирован на тех, кто знаком с Yaml, но возможно чувствует неприязнь к формату.

+12

kucev 9 авг 2024 в 09:29

Fine-tuning больших языковых моделей в 2024 году

14 мин

7.1K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии.

Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.

Читать дальше →

SGarik 7 авг 2024 в 14:22

Введение в Weight & Biases

Простой

5 мин

2.9K

Блог компании OTUSМашинное обучение * DevOps * Data Engineering *

Обзор

В практике любого инженера машинного обучения обязательно присутствует инструмент для управления жизненным циклом машинного обучения: отслеживание экспериментов, управление и деплой моделей и проектов. В этой статье я кратко расскажу о таком инструменте компании Weight & Biases, незаслуженно обойденным вниманием на просторах рускоязычного пространства.

Работа в современных реалиях требуют быстрой разработки и оценки моделей. Существует множество компонентов: изучение обучающих данных, обучение различных моделей, объединение обученных моделей в различные комбинации (ансамблирование) и т. д.

Много компонентов = много мест, где можно ошибиться = много времени, потраченного на отладку. Вы можете упустить важные детали, и вам придется заново обучать модель, или вы можете обучиться на неправильных данных (утечка информации). Или вы можете использовать неправильную модель для генерации представления.

Именно здесь на помощь приходит W&B.

andrey_boyarenkov 6 авг 2024 в 07:00

Практический кейс реализации AutoML в банке

Средний

10 мин

1.7K

Блог компании ВТБPython * Машинное обучение * Финансы в ITData Engineering *

Кейс

Всем читателям Хабра привет! На связи дата сайентисты стрима разработки моделей для корпоративного сегмента банка ВТБ — Андрей Бояренков, Иван Кондраков, Станислав Арешин и Андрей Трушин.

В этой статье мы хотим поговорить про конкретный кейс разработки процесса AutoML для моделей оценки вероятности дефолта клиентов (PD) в рамках экспресс-продуктов малого бизнеса. Расскажем, как выстроен наш процесс, как мы к этому пришли, с какими проблемами столкнулись, как их решили и как в дальнейшем планируем тиражировать на другие продукты банка.

Читать

+10

evgenii111 5 авг 2024 в 17:58

Портируем ML модели на Java с помощью ONNX

Простой

5 мин

2.1K

Искусственный интеллектData Engineering * Java * Машинное обучение *

Из песочницы

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech, а точнее в программатик платформе по доставке Web рекламы.

Сегодня речь пойдет про то, как сделать ML модели, совместимыми с бэк э

antipov_dmitry 5 авг 2024 в 06:45

Разбор SAM2 через колено в голову или революция в разметке видео

Простой

7 мин

2.1K

Data Mining * Big Data * Машинное обучение * Искусственный интеллектData Engineering *

Обзор

На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.

Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.

Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!

+19

blognetology 1 авг 2024 в 17:43

10 бесплатных курсов и мастер-классов, которые стоит пройти в августе

5 мин

Блог компании НетологияПрограммирование * Учебный процесс в ITКарьера в IT-индустрииData Engineering *

🤦 Посмотрели на календарь, а лучше бы не смотрели!

Последний месяц лета решили провести с максимальной пользой. Начнём, пожалуй, с бесплатных занятий ;)

Погнали →

Olesya_Runushkina 31 июл 2024 в 06:16

Data Day 2024. Всё по полочкам. Секция 1

Простой

9 мин

872

Data Engineering * Big Data * Конференции

Из песочницы

Data Day 2024. Всё по полочкам. Секция 1

Данная статья максимально подробно пересказывает информацию первой секции с недавно прошедшего форума Data Day.

Панельная дискуссия. ChatGPT где деньги?

На панельной дискуссии эксперты из ведущих компаний обсудили применение генеративного искусственного интеллекта (ИИ) и его влияние на бизнес-процессы.

Александр Крайнов из Яндекса поделился впечатляющими примерами, включая генерацию речи, которая уже незаметно заменяет человеческие голоса в навигаторах и ассистентах. Валентин Малых из ИТМО рассказал о необходимости безопасности при использовании генеративного ИИ, особенно в программировании. Илья Щиров из Райффайзенбанка отметил, как генерация изображений для профессиональных целей может заменить услуги фотографов. Елизавета Гончарова из AIRI подчеркнула удобство создания датасетов для тренировки моделей, что экономит ресурсы разработчиков.

Доклады отдельных специалистов

Петр Савостин из Т-Банка рассказал о своем опыте улучшения клиентского опыта с помощью анализа данных. Внедрение ИИ в мобильные приложения и мессенджеры Т-Банка улучшило автоматизацию процессов и сократило количество обращений клиентов.

Валентин Малых из ИТМО подчеркнул, что генеративный ИИ не всегда необходим. В большинстве задач можно использовать проверенные методы, что снижает затраты и ресурсы.

Елизавета Гончарова из AIRI рассказала о перспективах мультимодальных моделей, которые могут работать с текстами, изображениями, видео и аудио. Эти модели позволяют решать широкий спектр задач, от бронирования отелей до подбора технических устройств по фотографии.

Михаил Комаров из Ростелекома поделился опытом оптимизации процессов с помощью ИИ. Ростелеком активно использует ИИ для повышения эффективности и качества обслуживания, внедряя инновационные решения для обезличивания данных и их генерации.

В заключение, эксперты отметили, что успешное внедрение генеративного ИИ требует внимательного подхода к безопасности и этике, а также использования данных для улучшения бизнес-процессов и клиентского опыта.

Подробнее

randall 30 июл 2024 в 11:24

Пайплайны, разметка и версионирование — открытые решения для работы с неструктурированными данными

Простой

5 мин

1.5K

Блог компании MWS CloudБлог компании МТСBig Data * Хранение данных * Data Engineering *

Обзор

Подготовили подборку решений для анализа и обработки неструктурированных данных. Инструменты помогут с разметкой текста, построением соответствующих пайплайнов и версионированием масштабных сводов информации для машинного обучения и не только. Поговорим про Sycamore, Surya, OmniParse, Unstract и Oxen — каждый из этих инструментов имеет открытый исходный код.

Кроме того, организации могут значительно сэкономить на управлении и эксплуатации неструктурированных данных за счет объектного облачного хранилища. Запустили тест-драйв, проверяйте.

Ninil 29 июл 2024 в 12:28

Cloud Native vs Cloud Agnostic в Data Engineering'е: выбираем подход

Средний

12 мин

537

Big Data * Хранение данных * Управление разработкой * Data Engineering *

Кейс

Сейчас развертывание дата платформ и решений для аналитки в облаке - явление повсеместное. Кажется, что так было (и будет?) всегда. При этом существует постоянное (но не всегда очевидное) противостояние между подходами Cloud Native и Cloud Agnostic. Cloud Native поддерживает использование специфических сервисов конкретного облачного провайдера, в то время как Cloud Agnostic нацелен на создание приложений, которые могут работать на различных облачных платформах без изменений.

Важно осознавать различия между этими подходами и принимать обоснованные решения при выборе одного из них для своего проекта. Этот выбор может существенно повлиять на архитектуру, масштабируемость вашей дата платформы и стоимость разработки и поддержки.

Однако важно помнить, что не следует впадать в крайности и быть абсолютно приверженным только одному из подходов (вспомним акисому Эскобара). Иногда оптимальным решением может быть комбинация обоих подходов, чтобы достичь оптимального баланса между гибкостью и эффективностью.

В данной статье я попытаюсь описать подход, который в итоге я внедрил в своей команде для построения дата-инфраструктуры.

omoskvin 29 июл 2024 в 09:34

Цикл статей о Greenplum. Часть 2. Оптимальный DDL

Средний

10 мин

6.8K

Блог компании Axenix (ex-Accenture)PostgreSQL * SQL * Data Engineering * Хранение данных *

Туториал

Всем привет!

В прошлой статье мы с вами разобрались, как устроена MPP-архитектура Greenplum. Сегодня мы в сотрудничестве с @imzorin углубимся и разберемся, что представляет из себя DDL в этом хранилище. Также постараемся выделить основные моменты, на которые стоит обращать внимание при выборе типа таблиц, дистрибуции и прочего.

R_STYLE_SOFTLAB 25 июл 2024 в 07:00

Как мы переводили автоматизированную банковскую систему RS-Bank V.6 на импортозамещенный стек

Средний

5 мин

1.8K

Блог компании РСХБ.Цифра (Россельхозбанк)Oracle * PostgreSQL * IT-инфраструктура * Data Engineering *

Кейс

Привет, Хабр! Меня зовут Юрий Мишин, я технический директор в департаменте банковского ПО компании R‑Style Softlab. В этой статье я расскажу о масштабном проекте по переводу одного из ключевых продуктов компании 一 автоматизированной банковской системы (АБС) 一 на импортозамещенный стек.

+11

Falcon_eye 24 июл 2024 в 13:46

Как установить Apache Spark за 10 минут

Средний

2 мин

3.3K

Big Data * Data Engineering *

Туториал

Установка Apache Spark займет немного времени и позволит изучить этот инструмент еще глубже прямо на своем компьютере!

-1

cvaynex 24 июл 2024 в 11:11

Data Science в travel-tech. Часть 1. Поиск и бронирование

Простой

9 мин

1.5K

Блог компании Островок!Программирование * Data Engineering *

Обзор

Привет! Меня зовут Иван Елфимов, я Developer Advocate в Островке. В прошлом месяце мы опубликовали пост о том, чем занимаются ML-инженеры в Островке. В этот раз рассказываем про Machine Learning (ML) и Data Science (DS) с точки зрения продукта.

Команда Data Science появилась в Островке в 2014 году, задолго до расцвета больших языковых моделей. За это время она успела сделать десятки проектов с computer vision, NLP и сложными классическими моделями.

Ажиотаж вокруг языковых моделей заставил многих из нас забыть, что Data Science — это не только трансформеры (General Pretrained Transformers, GPT). Мы используем картинки, текстовые и табличные данные для построения моделей, которые работают в реальном времени или обрабатывают статистические данные. Они помогают нам подбирать лучшие отели для вашего следующего путешествия.

Хороший DS-продукт не заметен — он просто работает. Давайте сыграем в игру: мы показываем скриншот страницы сайта, а вы пробуете отгадать, сколько на этой странице DS-продуктов. И не забывайте, что DS-продукт — это не только нейронные сети, но и классические модели, а также различные эвристики. Надеюсь, результаты вас удивят!

kucev 24 июл 2024 в 08:36

Что такое supervised fine-tuning?

7 мин

4.6K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных.

В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой.

Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи.

SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности.

Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров.

Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров.

Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

Читать дальше →

k0rsakov 24 июл 2024 в 05:00

Кто такой Data Engineer | Дата Инженер

Простой

4 мин

3.1K

Big Data * Хранение данных * Карьера в IT-индустрииData Engineering *

Туториал

В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии

dikar8 23 июл 2024 в 16:42

Как визуальные головоломки помогут выявить AGI

Простой

9 мин

1.3K

Машинное обучение * Искусственный интеллектData Engineering *

Обзор

Крупные языковые модели (LLM) вошли в число самых многообещающих изобретений в области искусственного интеллекта (ИИ). Впечатляющие возможности GPT-4 заставили многих восторженно говорить о появлении сильного искусственного интеллекта (AGI). При этом GPT-4 и другие LLM пока показывают очень слабые результаты на наборе данных ARC, состоящем из визуальных головоломок. Почему тест Тьюринга - плохой инструмент для определения AGI? В чем разница между узким и общим интеллектом? Насколько люди умнее GPT-4 по результатам тестов на ARC? В статье ответы на эти и другие вопросы.

Читать

kucev 23 июл 2024 в 08:35

Как с помощью supervised fine-tuning кастомизировать LLM

7 мин

2.6K

Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу.

Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно.

Сравнение предварительного обучения LLM и fine-tuning

Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP.

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.

Читать дальше →

kucev 22 июл 2024 в 07:37

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

11 мин

3.3K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.

Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.

Читать дальше →

1 2 ...

30 31

33 34 ...

80 81

Data Engineering *

Transfer learning: подробный гайд для начинающих

Yaml — король мета-описаний

Fine-tuning больших языковых моделей в 2024 году

Введение в Weight & Biases

Практический кейс реализации AutoML в банке

Портируем ML модели на Java с помощью ONNX

Разбор SAM2 через колено в голову или революция в разметке видео

10 бесплатных курсов и мастер-классов, которые стоит пройти в августе

Data Day 2024. Всё по полочкам. Секция 1

Пайплайны, разметка и версионирование — открытые решения для работы с неструктурированными данными

Cloud Native vs Cloud Agnostic в Data Engineering'е: выбираем подход

Цикл статей о Greenplum. Часть 2. Оптимальный DDL

Как мы переводили автоматизированную банковскую систему RS-Bank V.6 на импортозамещенный стек

Ближайшие события

Как установить Apache Spark за 10 минут

Data Science в travel-tech. Часть 1. Поиск и бронирование

Что такое supervised fine-tuning?

Кто такой Data Engineer | Дата Инженер

Как визуальные головоломки помогут выявить AGI

Как с помощью supervised fine-tuning кастомизировать LLM

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

Вклад авторов