Comments / Profile of morginalium8 / Habr

Александр Колесников@morginalium8

Изучаю ML

9,1

Rating

Subscribers

ProfileArticles2PostsNewsComments28

Пузырь ИИ лопнул? Бизнес отказывается от ChatGPT, а Microsoft пытается спасти положение софтом: ML-дайджест

morginalium8 Jun 30 at 14:11

специализированные чипы будут очень дорогие. да и лично я считаю сомнительным решением засунуть печку на пару Кв себе домой.

что касается локального ии - индустрия движется в сторону уменьшения размера моделей. знаний на параметр становится все больше, и скоро 8В модельки смогут выполнять простые+/средние задачи, имея хороший харнесс и достаточно компьюта. так что выбирать модель по размеру параметров и брать максимум видеопамяти уже неактуально.

напиши интересную и уникальную статью про нейрослоп, разбери признаки и как чистить, придумай кликбейтный заголовок

morginalium8 Jun 26 at 17:31

обычно слоп используют те, кто не разбирается в своей технологии и не может достаточно точно сформулировать идею.

если человек в своем деле собаку съел, то оформить небольшой лонгрид или пост в тг он сможет, используя школьные правила русского языка и критическое мышление.

а слоп часто выделается еще и тем, что там полностью отуствует наполнение. есть какая-то идея, а по факту - фантазии автора, которые он обсудил с ллм-кой, попросил оформить в виде поста и вывалил на всеобщее обозрение.

Вынужден попрощаться: руководство Google окончательно утратило моральные принципы

morginalium8 Jun 22 at 09:41

ты про AI Mode говоришь, а речь идет про https://gemini.google.com - основной сайт gemini.

OCC-RAG: компактные модели, которые отвечают только по источникам

morginalium8 Jun 21 at 09:26

А что на счет данных? Будете синтетику выкладывать?

Почём нынче токен для народа?

morginalium8 Jun 20 at 11:43

А почему именно 5 лет? Общий стандарт или догадки?
Ты считал с batch=1? Вроде как в том-же neuraldeep.ru довольно большой батч и несколько одновременных запросов, потому кол-во токенов в секунду в общем больше. А значит, и цена ниже?
Недавно на хабре вышла похожая статья - https://habr.com/ru/articles/1035446/. Там автор считает стоимость 1М токенов через размер модели, стоимость аренды (куда уже заложено электричество, амортизация и маржа) и MFU (Model FLOPS Utilization). Пробовал перенести свои цифры с домашнего расчета на более промышленную формулу? Есть ли вообще смысл в таком переносе?

Потратил полгода на обучение своей ии с нуля, вот что вышло

morginalium8 Jun 19 at 16:44

дле претрейна zyda очень хорош. там и статьи, и код, и инет. вышел пару месяцев назад, очень хорошо отфильтрован.

есть ру-диалоги, глянь у гусева или у вихрей. они там 4о дистилили, так что качество хорошее. если есть желание ризонинг прокачать - OpenThoughts, там 1М диалогов (но на англ).

llama3 это база. что с головами в gqa, как распределил K и V?

Потратил полгода на обучение своей ии с нуля, вот что вышло

morginalium8 Jun 19 at 15:31

Получилось супер. Я обычно более мелкие модели тренирую, но могу добавить немного важной инфы:

Используй датасеты с HF. Там уже куча синтетических диалогов и много датасетов для претрейна.
Размерность 1024 - ну, как будто много... Можно было глянуть тесты на 512 и 768.
Сравнивать такую маленькую модель на бенчах бесполезно. Попробуй измерить PPL и тд, они много инфы дадут.

А что касается самое статьи - было интересно почитать про архитектуру. Какие именно 20 слоев, что по активациям и линейным слоям, какой тип внимания, что с остаточными связями и другие моменты.

Если хочешь - напиши мне в личку, вместе можем что-нибудь классное придумать. Вторую версию сделать, например. Или эту доработать.

Как дообучить LLM. Рассказываю шаг за шагом

morginalium8 Jun 15 at 18:35

я мог бы написать о разных методах дообучения, погрузиться в технические детали или обсудить экономику провадейров. но ты выбрал другой путь.

серьезно, будем меряться годами рождения? да, мне 17 лет, я это не скрываю. лучше расскажи о том, чем ТЫ в свои 17 занимался.

хотя если ты так хочешь - давай на твоем поле поиграем. иди, подойди к зеркалу и посмотри. вот он - человек, которого задел ответ на комментарий и он попытался унизить школьника. да это же абсолютно смешно!

тебе настолько нечего делать, что ты полез в мой профиль, нашел обо мне инфу, и тебе не лень было меня так тупо подкалывать.

если будет интересная тема для разговора я с радостью поддержу диалог. но доказывать что-то человеку, который не смог поставить запятую перед обращением - нет, спасибо.

Теряет ли OpenAI деньги на подписках и другие прикидки на салфетке

morginalium8 Jun 7 at 08:17

вроде простые расчеты, циферки и красивые формулы. но блин, как же круто написано. лайк-подписка-колокольчик поставил )))

Как дообучить LLM. Рассказываю шаг за шагом

morginalium8 Jun 7 at 07:53

автор статьи все верно написал, понятным и простым языком. а вот вы наоборот, показали то, что совсем не разбираетесь в теме. давайте по пунктам:

у ру-провайдеров все ок с 152-ФЗ. да, это так - сервера в россии, данные за рубеж не уходят. вот только из-за дефицита железа в россии такие сервера стоят довольно дорого. а значит и модельки, которые на них крутятся дешевыми быть не могут. алиса, например, стоит сопоставимо с соннет, но по качеству в разы хуже. в мтс облаке все еще 'лучше' - прошлогодняя qwen-qwq стоит в 1000 (!) раз дороже аналога на openrouter.
LoRA, QLoRA и DoRA - отличные и полноценные методы дообучение. и зачастую они даже стабильнее обычного sft, т.к. почти не ломают базовые способности модели. для sft/rl нужно огромное кол-во данных и можностей, а я не думаю что у кого-то в доступе пара сотен лишнихН200 завалялось.
методики оценки в статье на хабре? может еще слепое рецензирование требовать будем? или перед публикацией статьи надо будет защитить статью перед научным комитетом... тут автор ппросто показал - вот, мол, смотрите - есть такая штука. это просто введение в тему. если хотите углубиться - найди оригинальную статью про LoRA и ищите тех, кто ее активно цитирует. это авторитетные первоисточники, там все по науке - введение, методы, выводы и список литературы.

RAG вместо GPT: как мы сделали внутреннего ассистента для корпоративных данных

morginalium8 Jun 6 at 07:04

замели мягкое на красное... как можно генеративный предобученный трансформер заменить на ретривал генерацию?

а с техническими деталями что? в чем смысл статьи, которая в сотый раз описывает naive rag?

если есть желание рассказывать - рассказывайте нужные вещи. например, какую взяли модель, как ее развернули, какие были трудности. да, статья получится нишевой. но интересной.

или, например, кейс с мультимодальностью данных. была ли вообще такая задача? как ее решали?

Как шахматный подход помог разобраться с фотолентой Яндекс Диска

morginalium8 Jun 4 at 12:16

а кто вообще эту фишку придумал? да, реализация класна, но смысл то в чем? клиенты вообще знаю о пути своих фоток?

Миф о «равных весах»: что на самом деле скрывается внутри малых моделей

morginalium8 Jun 4 at 12:11

статья свежа как хлеб... хабр слишком долго не мог публикацию одобрить?

Число IT-специалистов в России в 2025 году достигло 1,87 млн человек

morginalium8 May 27 at 08:52

а как считали? все 2 миллиона привели, посчитали и отпустили?

Как создать калькулятор для расчёта квадратных уравнений на Python с использованием фреймворка Tkinter

morginalium8 May 4 at 20:16

Можешь глянуть, я тут что-то похожее делал - только там вообще все решить можно

Как создать калькулятор для расчёта квадратных уравнений на Python с использованием фреймворка Tkinter

morginalium8 May 4 at 20:15

автору 15-16 лет. и он уже имеет грамотную речь, умение описывать свои идеи, доводить их до реализации и описывать результат.
я технические знания придут

Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

morginalium8 May 3 at 04:13

исправил, спасибо

Маск признал, что Grok обучали на моделях OpenAI

morginalium8 May 1 at 16:58

там уже все настолько запутано, что даже если кто-то у кого-то воровал - уже не разберешь.

а на счет синтетики - с точки зрении чистого ml это просто скучно. наверное интереснее делать свою модель, свои данные и тд. но менеджеры думают по другому...

Если Маск заплатил за токены - то все ок. он купил и волен делать с ними что угодно.

Почему будущие ИТ-устройства должны работать без 0 и 1, если они хотят быть ИТ-устройствами будущего

morginalium8 May 1 at 12:00

Маск признал, что Grok обучали на моделях OpenAI

morginalium8 Apr 30 at 20:41

А кто-то сомневался? Все друг у друга воруют. Или это нельзя назвать воровством?

Information

Specialization