Data Mining *

Глубинный анализ данных

hukenovs 29 авг 2024 в 10:13

Рецепт идеальной разметки в Computer Vision

Средний

11 мин

Блог компании Конференции Олега Бунина (Онтико)Блог компании SberDevicesData Mining * Обработка изображений * Машинное обучение *

Туториал

За два года команда RnD CV из SberDevices выложила в открытый доступ три датасета для задач компьютерного зрения: HaGRID, EasyPortrait и Slovo. Чтобы достичь максимальной точности обработки данных, полученных с краудсорсинговых платформ, мы применили методы агрегации, которые позже объединили в фреймворк.

Привет, Хабр! На связи Карина Кванчиани и Александр Капитанов из SberDevices. В этой статье мы расскажем о фреймворке агрегации разметки данных, который использует наша команда и коллеги из других подразделений. AggregateMe помогает привести несколько разметок к одной и повысить её качество в случае, если исполнители где-то ошиблись. Скоро фреймворк появится в открытом доступе, а здесь расскажем, как он работает.

+14

Kosmak 27 авг 2024 в 07:20

Распознаем беспилотники малых размеров с помощью ИИ

8 мин

14K

Python * Data Mining * Искусственный интеллект

Из песочницы

Беспилотные летательные аппараты (БПЛА), или дроны, становятся всё более распространёнными в различных областях — от коммерческой доставки и мониторинга сельскохозяйственных угодий до разведывательных миссий и обеспечения безопасности. Однако, по мере роста их числа, возрастает и сложность задачи их распознавания, идентификации и трекинга, особенно когда речь идёт о малых дронах.

Читать далее ->

+16

artyom08112006 19 авг 2024 в 18:16

Что можно узнать из текста в телеграмм-канале?

Простой

17 мин

Машинное обучение * Natural Language Processing * Data Mining *

Из песочницы

Два года назад я создал свой канал, где делился всем, что меня увлекает — от личных заметок и искусства до новостей Data Science и ИИ. За это время мой канал стал обширным хранилищем текстов, и я решил проанализировать их. Я применил статистический анализ, тематическое моделирование, нейросети и кластерный анализ, чтобы вытащить из данных как можно больше информации. В своей статье я подробно описываю весь процесс и делюсь полученными результатами.

Приглашаю вас на препарацию моих мыслей, заметок и идей!

В препараторскую 👉

+11

k0rsakov 19 авг 2024 в 05:00

Инфраструктура для data engineer Kafka

Простой

8 мин

4.3K

Data Mining * Big Data * Хранение данных * Data Engineering *

Туториал

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

AntonSoroka 14 авг 2024 в 12:50

Как и зачем считать сбалансированный precision score

Простой

5 мин

1.1K

Python * Data Mining * Математика * Машинное обучение * Статистика в IT

Туториал

В машинном обучении при оценке решения задачи классификации precision score может давать неожиданные результаты тогда, когда баланс классов сильно изменяется.

Почему так, почему это может приводить к ошибкам при отладке моделей, и как этого избежать с помощью сбаланированного precision score - в этой заметке.

kucev 12 авг 2024 в 13:34

Как дообучать LLM с помощью Supervised Fine-Tuning

15 мин

19K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Обычно большие языковые модели (large language model, LLM) обучают в несколько этапов, включающих предварительное обучение и множество этапов fine-tuning (см. ниже). Предварительное обучение — это дорогостоящий процесс (например, требующий многих сотен тысяч долларов на вычислительные ресурсы), однако fine-tuning модели LLM (или контекстное обучение) по сравнению с этим гораздо дешевле (например, сотни долларов или даже меньше). Учитывая широкую доступность и бесплатность (даже для коммерческого использования) предварительно обученных LLM (например, MPT, Falcon или LLAMA-2), мы можем создавать большой спектр мощных приложений благодаря fine-tuning моделей под нужные задачи.

Этапы обучения LLM

На текущем этапе исследований ИИ одним из самых широко применяемых видов fine-tuning моделей LLM стал supervised fine-tuning (SFT). При этой методике курируемый датасет высококачественных выходных данных LLM применяется для непосредственного fine-tuning модели. SFT прост и дёшев в использовании, это полезный инструмент выравнивания языковых моделей, ставший популярным даже за пределами исследовательского сообщества опенсорсных LLM. В этой статье мы вкратце расскажем о принципах SFT, рассмотрим исследования по этой теме и приведём примеры того, как практикующие специалисты могут с лёгкостью пользоваться SFT, написав всего несколько строк кода на Python.

Читать дальше →

SSP_blog 12 авг 2024 в 05:57

Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза

Простой

6 мин

6.7K

Блог компании SSP SOFTУчебный процесс в ITКарьера в IT-индустрииПрофессиональная литература * Data Mining *

Обзор

Хорошая новость — все больше книг по машинному и глубокому обучению теперь доступны и в русском переводе. Очередная рецензия будет на книгу «Прикладное машинное обучение и искусственный интеллект для инженеров» (Applied Machine Learning and AI for Engineers) автора Джеффа Просиза от O'Reilly Media, в переводе от БХВ Петербург. В отличие от многих других введений и пособий на эту тему, книга Дж. Просиза избегает упора на излишне сложную математику, делая акцент на практическое применение ML и DL технологий.

Прежде чем перейти к разбору книги “Прикладное машинное обучение и искусственный интеллект для инженеров”, напомним про две другие книги-новинки по теме ML/DL вышедшие в 2024 году в издательстве БХВ Петербург. Вот наши рецензии на них:

+11

kucev 9 авг 2024 в 09:29

Fine-tuning больших языковых моделей в 2024 году

14 мин

10K

Искусственный интеллектData Mining * Data Engineering * Big Data * Машинное обучение *

Перевод

Не секрет, что большие языковые модели (LLM) эволюционируют с безумной скоростью и привлекают внимание всей отрасли генеративного ИИ. Корпорации не просто заинтригованы, они одержимы LLM, и в частности, потенциалом fine-tuning LLM. В исследования и разработку LLM сейчас вкладываются миллиарды долларов. Лидеры отрасли и энтузиасты технологий всё сильнее стремятся углубить своё понимание LLM и их fine-tuning. Эта сфера natural language processing (NLP) постоянно расширяется, поэтому критически важно иметь актуальную информацию. Польза, которую LLM могут принести вашему бизнесу, зависит от ваших знаний и понимания этой технологии.

Цикл жизни большой языковой модели состоит из множества важных этапов, и сегодня мы рассмотрим один из самых любопытных и активно развивающихся частей этого цикла — процесс fine-tuning моделей LLM. Это трудозатратная, тяжёлая, но перспективная задача, используемая во многих процессах обучения языковых моделей.

Читать дальше →

antipov_dmitry 5 авг 2024 в 06:45

Разбор SAM2 через колено в голову или революция в разметке видео

Простой

7 мин

Data Engineering * Искусственный интеллектМашинное обучение * Big Data * Data Mining *

Обзор

На днях вышла новая версия модели для сегментации видео - SAM2, которая не только стала быстрее выше сильнее предшественника, но и нацелилась поменять разметку видео также, как с картинками это проделала первая версия модели.

Оригинальную SAM мы используем для разметки в достаточно промышленных масштабах (в том числе и для видео), и потому пройти мимо препарирования SAM2 было невозможно, но так как модель уже по верхам разобрали в тг-каналах, пейпер хорош, а то, что модель феноменальна - понятно без слов, то я постараюсь поглубже разобрать подготовку датасета/разметку и саму модель именно на сложных примерах с моими комментариями.

Легкое чтиво и много гифок — самое то для бодрого старта понедельничка!

+19

ph_piter 30 июл 2024 в 12:56

Книга: «Data mesh в действии»

17 мин

4.6K

Блог компании Издательский дом «Питер»Хранение данных * Профессиональная литература * Big Data * Data Mining *

Привет, Хаброжители!

Потребность эффективно хранить большие объемы данных и обращаться к ним стала одной из ключевых потребностей любого бизнеса. Сетка данных (data mesh) — это новый способ децентрализовать управление данными, радикально повышая их безопасность и доступность. Хорошо спроектированная сетка данных позволяет потреблять данные в режиме самообслуживания и помогает избавляться от узких мест, которые свойственны монолитным архитектурам данных.

Пора разобраться с тем, как на практике децентрализовать данные и организовать их в эффективную сетку. Сперва вы создадите простейший жизнеспособный продукт данных, а потом, продвигаясь от главы к главе, преобразуете его в самообслуживаемую платформу данных. Вам наверняка понравятся предложенные в книге «ползунки», с помощью которых можно будет настроить сетку под ваши потребности.

Книга предназначена для профессионалов в области данных и не привязана к конкретным программным стекам или платформам данных.

Читать дальше →

astromid 29 июл 2024 в 12:34

Реконсиляция в иерархическом прогнозировании временных рядов

Средний

11 мин

2.3K

Блог компании СинимексМашинное обучение * Big Data * Data Mining *

Обзор

Всем привет! Меня зовут Ян, я ведущий специалист по анализу данных в компании Cinimex Data Lab. Не так давно мы столкнулись с задачей иерархического прогнозирования временных рядов для заказчика из фармацевтической области, откуда и родилась идея для этого материала. В статье коснемся особенностей иерархического прогнозирования (форекастинга), разберем что значит термин реконсиляция, рассмотрим его математическую формализацию а также разные методы реконсиляции.

svetofor_columb 29 июл 2024 в 09:57

Используем LLM, чтобы найти «бриллианты» в тексте

Средний

6 мин

Блог компании Innovative PeopleNatural Language Processing * Big Data * Data Mining *

Туториал

Привет всем! Меня зовут Александр Григорьев и я продуктовый аналитик в Innovative People.

Год назад я писал про то, как с помощью современных LLM извлечь из множества текстовых данных эмбеддинги, и на их основе сделать аналитику того, какие темы есть в тексте.

Спустя время у меня и моих коллег накопилось несколько вопросов:

kucev 24 июл 2024 в 08:36

Что такое supervised fine-tuning?

7 мин

5.9K

Big Data * Data Engineering * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных.

В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой.

Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи.

SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности.

Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров.

Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров.

Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

Читать дальше →

SSP_blog 24 июл 2024 в 05:53

Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”

Простой

7 мин

9.5K

Блог компании SSP SOFTData Mining * Профессиональная литература * Учебный процесс в ITКарьера в IT-индустрии

Обзор

Это наконец случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 800 страниц, руководство по практическому применению Python в сфере Data Science. Книга изначально планировалась как 4-е издание "Python Machine Learning", но из-за множества изменений авторы решили выпустить его под новым названием. Ввиду достаточно высокой цены, вам пригодится наш промокод SSPSOFT для покупки этой книги со скидкой 25%.

+15

kucev 23 июл 2024 в 08:35

Как с помощью supervised fine-tuning кастомизировать LLM

7 мин

3.7K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering *

Перевод

В быстро развивающейся сфере Natural Language Processing (NLP) fine-tuning стал мощным и эффективным инструментом адаптации предварительно обученных больших языковых моделей (Large Language Model, LLM) под конкретные задачи. Предварительно обученные LLM (например, семейство GPT) продемонстрировали существенный прогресс в понимании и генерации языка. Однако эти предварительно обученные модели обычно учатся на огромных объёмах текстовых данных при помощи обучения без учителя и могут быть не оптимизированы под узкую задачу.

Fine-tuning позволяет закрыть этот пробел, воспользовавшись преимуществами общего понимания языка, полученными во время предварительного обучения, и адаптировав их к целевой задаче при помощи обучения с учителем. Благодаря fine-tuning предварительно обученной модели на специфичном для задачи датасете разработчики NLP могут достигать впечатляющих результатов с гораздо меньшим объёмом данных обучения и вычислительных ресурсов, чем при обучении модели с нуля. В частности, для LLM fine-tuning крайне важен, так как повторное обучение на всём объёме данных вычислительно слишком затратно.

Сравнение предварительного обучения LLM и fine-tuning

Успех fine-tuning привёл ко множеству передовых результатов в широком спектре задач NLP и сделал его стандартной практикой в разработке высокоточных языковых моделей. Исследователи и практики продолжают исследовать варианты и оптимизации методик fine-tuning, чтобы ещё больше расширить возможности NLP.

В этой статье мы глубже изучим процесс fine-tuning LLM на основе инструкций при помощи библиотеки transformers двумя разными способами: просто с библиотекой transformers и с модулем trl.

Читать дальше →

kucev 22 июл 2024 в 07:37

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

11 мин

4.7K

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

Пожалуй, для адаптации больших языковых моделей (large language model, LLM) под чётко очерченные задачи обработки естественного языка (natural language processing, NLP) нет технологии лучше, чем SFT (supervised fine-tuning). Для дообучения модели её необходимо предварительно обучить, а это означает, что она уже многому научилась из широкого спектра текстов.

Но можно ли после одного лишь предварительного обучения использовать модель в различных типах задач? Да, но ей всё равно будет не хватать совершенствования при помощи SFT, чтобы она действительно могла выполнять требуемые действия и стала опытной в определённой сфере знаний.

Читать дальше →

perevalov_a 18 июл 2024 в 19:51

OpenAI представила GPT-4o mini и мы её уже внедрили

Простой

3 мин

9.5K

Data Mining * Машинное обучение * Искусственный интеллектNatural Language Processing *

Обзор

Сегодня нас порадовали очередные горячие новости из мира ИИ! Open AI представили GPT-4o mini — новую доступную и высокоинтеллектуальную «маленькую» языковую модель, которая значительно умнее, дешевле и так же быстра, как GPT-3.5 Turbo. Недолго думая, мы внедрили и протестировали новую модель на своих задачах. Результаты внизу.

Udysuduf 18 июл 2024 в 15:51

Недвижимость и ее инфляционная «защищенность» в реальных цифрах

Простой

3 мин

5.3K

Data Engineering * Веб-аналитика * Big Data * Data Mining * Python *

Аналитика

Статья посвящена небольшому личному исследованию по изменению стоимости квадратного метра в Варшаве, Минске, Москве и Санкт-Петербурге. Для простоты и скорости везде использовал chatgpt-4 с последующей ручной перепроверкой всех выдаваемых значений. Будет много неожиданных результатов и занимательных графиков, так что приступим!

yorko 16 июл 2024 в 09:11

В 48 собесах от оффера в Гугл

Средний

21 мин

20K

Блог компании Open Data ScienceData Mining * Машинное обучение * Карьера в IT-индустрииNatural Language Processing *

Обзор

Здравствуй, хабр! Что-то я давно не писал, отбился от рук, а ведь когда-то мы целый курс машинного обучения на Хабре вели. Расскажу про свой недавний заход по собесам, что спрашивали, какие выводы сделал. Контекст: Applied Machine Learning science (в том числе этот ваш Generative AI), Нидерланды, уровень синьор+. Я долго получал отказы, старался не унывать и в конце таки нашил лычку Staff GenAI Field Solutions Architect в Google Cloud. Тут поделюсь статистикой собесов, полезными ресурсами и, конечно, всякими советами.

+66

scolfield 15 июл 2024 в 14:03

Парсинг открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Простой

4 мин

1.2K

Data Mining * Здоровье

Кейс

Всем привет! Сегодня поговорим о парсинг данных с сайтов медицинских клиник. Мы выбрали это направление по двум причинам: 1. это высокодоходный бизнес; 2. все катаклизмы, которые происходят в мире не сильно «качают» эту сферу к знаку минус. Т.к. отказать себе в походе в ресторан, покупке новго айфона, даже осознать невозможность взять ипотеку. Но, если появились проблемы со здоровьем — то тут не до экономии. Особенно это качается жителей больших городов. Именно поэтому мы начали парсить данные клиник г. Москвы. Также надо отметить, что разделение труда в медицинской сфере продолжаеит расти. Появляются новые узкоспециализированные специалисты. И на них есть спрос. Я сам обладаю двумя полисами (ОМС и ДМС), но за последние два года пару раз столкнулся с ситуацией, когда нужного мне специалиста ни один полис не покрывал. И пришлось рассматривать варианты получения услуги либо в государственной больнице через направление (долго и бесплатно), либо за дополнительную плату в специализированной коммерческой клинике.

1 2 ...

11 12

14 15 ...

112 113

Data Mining *

Рецепт идеальной разметки в Computer Vision

Распознаем беспилотники малых размеров с помощью ИИ

Что можно узнать из текста в телеграмм-канале?

Инфраструктура для data engineer Kafka

Как и зачем считать сбалансированный precision score

Как дообучать LLM с помощью Supervised Fine-Tuning

Рецензия на книгу “Прикладное машинное обучение и искусственный интеллект для инженеров” Джеффа Просиза

Fine-tuning больших языковых моделей в 2024 году

Разбор SAM2 через колено в голову или революция в разметке видео

Книга: «Data mesh в действии»

Реконсиляция в иерархическом прогнозировании временных рядов

Используем LLM, чтобы найти «бриллианты» в тексте

Что такое supervised fine-tuning?

Ближайшие события

Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”

Как с помощью supervised fine-tuning кастомизировать LLM

Supervised Fine-Tuning: как настроить LLM под конкретную задачу?

OpenAI представила GPT-4o mini и мы её уже внедрили

Недвижимость и ее инфляционная «защищенность» в реальных цифрах

В 48 собесах от оффера в Гугл

Парсинг открытых данных на сайтах МedSwiss и МЕДСИ ч.1

Вклад авторов