doctorclo 2 апр в 03:35

Что вам нужно знать, если вы решили внедрить LLM

Средний

21 мин

14K

Машинное обучение * Искусственный интеллектNatural Language Processing * Будущее здесь

Туториал

+19

Комментарии 24

pavelsha 2 апр в 04:11

Лично мне LLM (БЯМ) с одной стороны улучшили жизнь, добавив в браузеры режим суммаризации, но также генеративные модели упростили генерацию похожих на правду текстов. В их потоке можно утонуть, если не использовать AI-ассистента.

Но мне понятна мысль, которую в недавнем интервью высказал Сатья Наделла. В очень вольном переводе она звучит так:

"AI-технологии жрут много ресурсов. Вот когда они предложат продукт, сравнимый по возможностям и пользе от них с Excel, тогда пусть и приходят с заявлением, что они спасут мир."

А то по количеству потребляемой денег, энергии и умственных ресурсов, некоторые инициативы напоминают Великий Думатель. И даже ответ дают похожего уровня.

doctorclo 2 апр в 05:16

Крутая мысль! Честно говоря, мне кажется что "Excel-подобная" польза не за горами. Для многих работа с LLM уже сейчас вошла в привычку

pavelsha 2 апр в 10:23

Вот она сила тысячелетней культуры! Два индуса беседуют у судьбах ИТ-технологий, даже о судьбах всего мира. А мы внимательно слушаем.

Лучше послушать интервью. Сатья не так уж и оптимистичен в отношении AI. И это при том что Майкрософт один из основных инвесторов OpenAI, и много сами предлагают продуктов с ИИ-составляющей.

https://youtu.be/4GLSzuYXh6w?si=qAyHNRreJJWMzKhy

Ну или посмотреть основные мысли из него у меня

Когда искусственному интеллекту будут сниться ячейки электронных таблиц?

fhr655 2 апр в 05:16

от обычных ИИ моделей?

в классическом ИИ

это что такое? что такое "обычные" ИИ модели, не являющиеся LLM?

doctorclo 2 апр в 05:18

Классические я имел в виду "модели машинного обучения, которые были до LLM"

Например, деревья решений, логистическая регрессия, нейронные сети, которые не LLM и тд

darkleon 2 апр в 05:26

Это будет очень дорого. LLM очень вычислительно неэффективно обрабатывает длинные контексты (подробнее прочитайте тут)
На длинных контекстах у моделей падает качество. LLM становится сложнее и сложнее разобраться, что важно, а что нет. Надо им помочь!

Сейчас хайп идет на CAG где как раз и предлагается все добавлять в контекс для ускорения поиска. Так использовать его или нет?

doctorclo 2 апр в 05:37

Если Вы имеете в виду Cache-Augmented Generation, то да, часто в задачах он может быть полезен.

Samhuawei 2 апр в 05:40

Статья про LLM без единой строчки кода. Как будто очередной CEO толкает акции своей конторки несмысленным инвесторам.

Ну и опять же. Экономический рост это понятно. Но все эти LLM как по мне бессмысленны если датацентры не на возобновляемой энергии и тепло не утилизируется например для отопления городов. Просто тупо разогревают планету.

doctorclo 2 апр в 05:51

В LLM удивительное штука. Если вы разберетесь, что это, как оно работает, щачем оно нужно, то использовать готовые библиотеки вообще не составит труда. Благо их миллион.

muhachev 2 апр в 07:56

Статья в целом норм, и тема актуальная.

Но есть несколько моментов, которые сильно смущают.

Техническая часть вроде соответствует, но мало конкретики, ссылок на исследования и т.п., что могло бы сделать текст более убедительным.

А вот блин стиль изложения - чересчур фривольный для такой серьёзной темы. Местами кажется, что автор больше старается высокомерно поиздеваться над читателем, чем реально помочь ему разобраться в вопросе.

Было бы более полезным, если бы текст был более взрослым, сфокусированным, структурированным и аргументированным.

В целом как бы читабельно, но текст очень длинный, а эти неуместные хохмы повсюду - раздражают и отвлекают. Для профессиональной аудитории наверное лучше писать глубже и серьёзнее.

В принципе, понятно желание автора самовыразиться в литературных сферах, ему плохо подвластных. Но продуктивнее делать то, что ты умеешь делать хорошо, а остальное оставить другим специалистам. Если, конечно, текст статьи не был сделан каким-нибудь самовлюбленным гроком с соответствующим шутливым промптом.

doctorclo 2 апр в 10:11

Про стиль понятно, это кажется вопрос субъективный

А где не хватило ссылки на исследования? Я как будто старался почти все снабдить источниками

muhachev 2 апр в 12:35

Выбор стиля - да, вопрос может быть и субъективный.

Но всё же существуют и объективные признаки стиля и критерии его выбора, а также общепринятые стили изложения тех или иных вопросов.

https://www.perplexity.ai/search/https-habr-com-ru-articles-896-sMtHdT4tQOi4E6aLzPCe2Q

muhachev 2 апр в 12:42

По поводу ссылок, я тут одновременно несколько моделей тестирую.

Вот от Гугла пока: https://g.co/gemini/share/239fb211bd9e

От жпт попозже скину, он чёт совсем углубится в рисёч 😂

muhachev 2 апр в 15:05

Вот и от ChatGPT анализы. Не читал еще, очень много там понаписано. 😂

https://chatgpt.com/share/67ed517c-4968-800e-8e5f-2a14dbbecf55

avegad 2 апр в 07:57

Понятно что, ничего не понятно(шутка). Может я плохо искал, но пока не нашёл пошаговое руководство по обучению "нулёвой" модели, от подбора датасета/разметки данных до fine-tuning, везде какие то обрывки знаний.
С "поверхности" это вообще смотрится дико: Скачали весь интернет, насыпали 10М A100, влили датасет, джва года подождали, и появился GPT-5. Это какая то "магия", а не технология получается.

Как то не верится мне, что нет методик, что и как делать на этапах pretrained, base, fine-tuning, неужели никто "нулёвую" модель не учил в "домашних" условиях?

doctorclo 2 апр в 10:13

Вы не плохо искали)

Нулевую модель учат, но для этого нужна большая команда и бюджет. Статья больше про практическое применение готовых LLM. Это сильно дешевле

avegad 2 апр в 12:48

Что дешевле - понятно. Это не мой случай. Для "бизнес-результатов" тот же Qwen 7B вполне себе подходит, в случаях когда нельзя светить данные вовне.

Мне интересно, насколько в "домашних" условиях, можно обучить маленькую(1B+-) LLM-модель до уровня "плохого" знания языка и более-менее внятного общения.

При этом интересно пройти все этапы, от сбора-подготовки датасета, первичного обучения(понимаем язык, отвечаем на вопросы которые в датасете), базового(уже неструктурированный текст), доводки под конкретные задачи(ну или нет).

Второе, что интересно, как будет вести себя модель, если ей не "прибить гвоздями человеческую мораль" на этапе первичного обучения. Т.к. почему то мне кажется, у существующих моделей: LlaMA, ChatGPT, и т.д. это сделано именно на этапе pretrained(или base).

doctorclo 2 апр в 17:45

Отличный вопрос)

Вы правы, многое уже зашито в модели. Вы так просто не выковырните это.

Обучить 1б самому можно, это потребует большого понимания, как их обучать. Есть хорошая серия видео от Карпатого, где он сам эти модели учил

Но это вам надо знать сильно за рамками этой статьи

LM7777 2 апр в 22:02

Предполагаю, у Андрея Карпатый должны быть статьи/видео на эту тему (сам не смотрел, только "планирую"). Также есть полностью открытые LLM, насколько понимаю, в таких проектах, содержится полное описание от подготовки до обучения и весь инструментарий, набор данных.

VNAg 4 апр в 05:58

Есть неплохая статья Михаила Утробина "Как создать переводчик, который переводит лучше, чем Google Translate". В ней он использовал для обучения OpenNMT. Этот готовый набор программ позволяет обучать модели типа "преобразователь" разных архитектур, в том числе и GPT. Всё что вам понадобится - собрать датасет и настроить конфигурационный файл. Я таким образом собрал набор данных на 1.5 млрд токенов для обучения русско-английскому переводу, суммаризации, составлению заголовков и генерации вопросов и обучил модель на 80 млн. параметров в общей сложности суток за 5 на 1 карте Nvidia RTX3090. Что получилось можно посмотреть на демо-сайте:
https://tolmacher.wia.su/
А скачать для экспериментов саму модель здесь:
https://huggingface.co/Vladniag/Requestor

Сейчас я её использую для генерации более масштабного датасета, на котором намерен обучить уже GPT модель примерно на 300 млн. параметров. Используется Qwen05B, которая не знает русского и моя модель, которая делает перевод на русский. Это единственный приемлемый вариант, учитывая недоступность Google-переводчика и стоимость переводов другими переводчиками такого огромного объёма данных какой нужен для обучения.

nikolay_karelin 2 апр в 13:22

Отлично рассказано, и во многом бьётся с моим опытом. Спасибо!

От себя: часто бывает очень и очень сложно уговорить бизнес-экспертов (они же Subject matter experts, SMEs) поучаствовать в подготовке тестовых данных. Иногда это даже воспринимают как форменное издевательство...

doctorclo 2 апр в 17:46

а они сами не заинтересованы, чтобы модель отвечала, как им хочется?

nikolay_karelin 3 апр в 14:49

А потом приходят с жалобами....

rakerunner 19 авг в 09:43

Подскажите, пожалуйста, хороший туториал по созданию self-hosted RAG.
На каком фреймворке луче его делать - n8n, LlamaIndex, LangChain, etc.?
Какие инструменты\модели лучше использовать для разбиения на чанки, векториизации, поиска?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий