Comments 23
Лично мне LLM (БЯМ) с одной стороны улучшили жизнь, добавив в браузеры режим суммаризации, но также генеративные модели упростили генерацию похожих на правду текстов. В их потоке можно утонуть, если не использовать AI-ассистента.
Но мне понятна мысль, которую в недавнем интервью высказал Сатья Наделла. В очень вольном переводе она звучит так:
"AI-технологии жрут много ресурсов. Вот когда они предложат продукт, сравнимый по возможностям и пользе от них с Excel, тогда пусть и приходят с заявлением, что они спасут мир."

Крутая мысль! Честно говоря, мне кажется что "Excel-подобная" польза не за горами. Для многих работа с LLM уже сейчас вошла в привычку

Лучше послушать интервью. Сатья не так уж и оптимистичен в отношении AI. И это при том что Майкрософт один из основных инвесторов OpenAI, и много сами предлагают продуктов с ИИ-составляющей.
https://youtu.be/4GLSzuYXh6w?si=qAyHNRreJJWMzKhy
Ну или посмотреть основные мысли из него у меня
Когда искусственному интеллекту будут сниться ячейки электронных таблиц?
от обычных ИИ моделей?
в классическом ИИ
это что такое? что такое "обычные" ИИ модели, не являющиеся LLM?
Это будет очень дорого. LLM очень вычислительно неэффективно обрабатывает длинные контексты (подробнее прочитайте тут)
На длинных контекстах у моделей падает качество. LLM становится сложнее и сложнее разобраться, что важно, а что нет. Надо им помочь!
Сейчас хайп идет на CAG где как раз и предлагается все добавлять в контекс для ускорения поиска. Так использовать его или нет?
Статья про LLM без единой строчки кода. Как будто очередной CEO толкает акции своей конторки несмысленным инвесторам.
Ну и опять же. Экономический рост это понятно. Но все эти LLM как по мне бессмысленны если датацентры не на возобновляемой энергии и тепло не утилизируется например для отопления городов. Просто тупо разогревают планету.
Статья в целом норм, и тема актуальная.
Но есть несколько моментов, которые сильно смущают.
Техническая часть вроде соответствует, но мало конкретики, ссылок на исследования и т.п., что могло бы сделать текст более убедительным.
А вот блин стиль изложения - чересчур фривольный для такой серьёзной темы. Местами кажется, что автор больше старается высокомерно поиздеваться над читателем, чем реально помочь ему разобраться в вопросе.
Было бы более полезным, если бы текст был более взрослым, сфокусированным, структурированным и аргументированным.
В целом как бы читабельно, но текст очень длинный, а эти неуместные хохмы повсюду - раздражают и отвлекают. Для профессиональной аудитории наверное лучше писать глубже и серьёзнее.
В принципе, понятно желание автора самовыразиться в литературных сферах, ему плохо подвластных. Но продуктивнее делать то, что ты умеешь делать хорошо, а остальное оставить другим специалистам. Если, конечно, текст статьи не был сделан каким-нибудь самовлюбленным гроком с соответствующим шутливым промптом.
Про стиль понятно, это кажется вопрос субъективный
А где не хватило ссылки на исследования? Я как будто старался почти все снабдить источниками
Выбор стиля - да, вопрос может быть и субъективный.
Но всё же существуют и объективные признаки стиля и критерии его выбора, а также общепринятые стили изложения тех или иных вопросов.
https://www.perplexity.ai/search/https-habr-com-ru-articles-896-sMtHdT4tQOi4E6aLzPCe2Q
По поводу ссылок, я тут одновременно несколько моделей тестирую.
Вот от Гугла пока: https://g.co/gemini/share/239fb211bd9e
От жпт попозже скину, он чёт совсем углубится в рисёч 😂
Вот и от ChatGPT анализы. Не читал еще, очень много там понаписано. 😂
https://chatgpt.com/share/67ed517c-4968-800e-8e5f-2a14dbbecf55
Понятно что, ничего не понятно(шутка). Может я плохо искал, но пока не нашёл пошаговое руководство по обучению "нулёвой" модели, от подбора датасета/разметки данных до fine-tuning, везде какие то обрывки знаний.
С "поверхности" это вообще смотрится дико: Скачали весь интернет, насыпали 10М A100, влили датасет, джва года подождали, и появился GPT-5. Это какая то "магия", а не технология получается.
Как то не верится мне, что нет методик, что и как делать на этапах pretrained, base, fine-tuning, неужели никто "нулёвую" модель не учил в "домашних" условиях?
Вы не плохо искали)
Нулевую модель учат, но для этого нужна большая команда и бюджет. Статья больше про практическое применение готовых LLM. Это сильно дешевле
Что дешевле - понятно. Это не мой случай. Для "бизнес-результатов" тот же Qwen 7B вполне себе подходит, в случаях когда нельзя светить данные вовне.
Мне интересно, насколько в "домашних" условиях, можно обучить маленькую(1B+-) LLM-модель до уровня "плохого" знания языка и более-менее внятного общения.
При этом интересно пройти все этапы, от сбора-подготовки датасета, первичного обучения(понимаем язык, отвечаем на вопросы которые в датасете), базового(уже неструктурированный текст), доводки под конкретные задачи(ну или нет).
Второе, что интересно, как будет вести себя модель, если ей не "прибить гвоздями человеческую мораль" на этапе первичного обучения. Т.к. почему то мне кажется, у существующих моделей: LlaMA, ChatGPT, и т.д. это сделано именно на этапе pretrained(или base).
Отличный вопрос)
Вы правы, многое уже зашито в модели. Вы так просто не выковырните это.
Обучить 1б самому можно, это потребует большого понимания, как их обучать. Есть хорошая серия видео от Карпатого, где он сам эти модели учил
Но это вам надо знать сильно за рамками этой статьи
Предполагаю, у Андрея Карпатый должны быть статьи/видео на эту тему (сам не смотрел, только "планирую"). Также есть полностью открытые LLM, насколько понимаю, в таких проектах, содержится полное описание от подготовки до обучения и весь инструментарий, набор данных.
Есть неплохая статья Михаила Утробина "Как создать переводчик, который переводит лучше, чем Google Translate". В ней он использовал для обучения OpenNMT. Этот готовый набор программ позволяет обучать модели типа "преобразователь" разных архитектур, в том числе и GPT. Всё что вам понадобится - собрать датасет и настроить конфигурационный файл. Я таким образом собрал набор данных на 1.5 млрд токенов для обучения русско-английскому переводу, суммаризации, составлению заголовков и генерации вопросов и обучил модель на 80 млн. параметров в общей сложности суток за 5 на 1 карте Nvidia RTX3090. Что получилось можно посмотреть на демо-сайте:
https://tolmacher.wia.su/
А скачать для экспериментов саму модель здесь:
https://huggingface.co/Vladniag/Requestor
Сейчас я её использую для генерации более масштабного датасета, на котором намерен обучить уже GPT модель примерно на 300 млн. параметров. Используется Qwen05B, которая не знает русского и моя модель, которая делает перевод на русский. Это единственный приемлемый вариант, учитывая недоступность Google-переводчика и стоимость переводов другими переводчиками такого огромного объёма данных какой нужен для обучения.
Отлично рассказано, и во многом бьётся с моим опытом. Спасибо!
От себя: часто бывает очень и очень сложно уговорить бизнес-экспертов (они же Subject matter experts, SMEs) поучаствовать в подготовке тестовых данных. Иногда это даже воспринимают как форменное издевательство...
Что вам нужно знать, если вы решили внедрить LLM