Обновить
60
Илья@proxy3d

нейробиология, нейронные сети, AR/VR

0,1
Рейтинг
23
Подписчики
Отправить сообщение

Проблема openai в том, что они за все время имея бюджеты не привнесли ничего нового в разработку самих нейронных сетей. Не рассмотрели, с чем связаны проблемы обучения, галлюцинаций.

Вообще это проблема всей отрасли. Что у нас Яндекс и Сбер, что у них openai и Claude, все только пытаются решить проблемы данными. Совершенно не развивая внутренние структуры самой основы.

Основной прорыв был с 2000-2020 , когда были предложены и разные LSTM, transformer разные подходы residual и так далее.

На сегодня, прогресс конечно есть, это SSM модели, которые учитывают временную компоненту в скрытых слоях (по сути улавливают ритмы). Но это разработка 2024 года (та же mamba, h3) и пока не завоевали ещё такой популярности.

Проблема ведь не в объемах данных. А в архитектуре самих трансформеров, которая очень примитивно реализует важную часть неокортекса.

В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.
В комментарии я привел пример, как понимание проблем трансформера, позволяет существенно улучшить его качество.

Я сейчас разбираю как раз трансформеры.

https://t.me/greenruff/2201?single

И понимание что в реальности они реализуют, позволило существенно улучшить их качество. Ускорило обучение и качество обучения.

Мне очень печально видеть обсуждение проблемы обучаемых данных, но при этом полное игнорирование основ проблемы механизмов, которые они реализуют.

Пока я больше восхищаясь DeepMind, так как у них в команде нейробиологи, которые пытаются расширить хоть не сами трансформеры (что печально), но взаимодействие разных областей мозга (их модель flamingo к примеру).

Мне бы хотелось, чтобы хотя бы наши разработчики учитывали и изучали не только математику, но природу процессов.

Что то не туда его занесло. В целом то верно, про колончатую структуру неокортекса. Ведь первичный посыл Хокинса о важности кортикальных колонок правильная. И ведь изначально в 2016 году он говорил про то что они работают в 3 измерениях тоже верно, но с оговорками. Но вот по этой статье его куда-то совсем не туда понесло. Сначала подумал, что он из DeepMind, но нет он из Numenta.

1) неокортекс это последовательности 6 слойных областей. Например в ассоциативной части некоторые слои могут быть более слабо выражены или вообще остаться развиты на клетчатом уровне. Но в целом можно разделить на слоев. Да все слои кроме молекулярного условно можно назвать колончатыми. Но например слой II это звездчатые нейроны, и поэтому колонки имеют последовательные связи. А тот же слой III имеет связи между колонками, так как в нем преобладают средние пирамидальные клетки и так далее

2) рассматривать надо было на уровне Ошибки предсказания, которую можно разделить на три уровня: веса на уровне нейрона (стремясь к химическому балансу), локальная ошибка на уровне VI слоя области (стремиться к балансу на уровне сигнала) и глобальная на уровне базальных ганглии (ошибки со всех областей мозга - аналог RL).

обучение гамматон фильтрам (https://t.me/greenruff/2180)
обучение гамматон фильтрам (https://t.me/greenruff/2180)

Я правда не понимаю, почему всех уносит в какие то аналогии, когда можно четко следовать тому как работают слои неокортекса, их связи, нейроны, как получаются ошибки предсказания и так далее. В нейробиологии все эти исследования есть.

Как итог, 6 слойная архитектура как и положено мозгу обучается с 1 раза. Ей достаточно 1 раз увидеть признаки, чтобы научиться выделять их. В то время как трансформеры не могу нормально научиться даже на 1000 разных примерах, и им нужно гораздо больше шагов и примеров. А все потому, что трансформеры (случайно так совпало) реализуют очень урезанный и упрощенный вариант 6 слойной модели областей в неокортексе.

А так Monty явно не туда ушло. Так как мозг это просто настройка над физиологией и его задача оптимально обеспечить поддержку гомеостаза физиологических процессов (глюкоза, кислотность, CO2 и так далее) в условиях при воздействии внешней среды. Больше мозг ни чего не делает - просто предсказывает ошибки и ищет оптимальный баланс между хаотичностью сигнала и минимальными затратами энергии (энтропией).

"Традиционно считалось, что большие языковые модели (LLM) работают пошагово, предсказывая каждый следующий токен. Однако новое исследование от Шанхайской ИИ-лаборатории выявило феномен «эмерджентного планирования». Согласно исследованию, внутренние активации, скрытые от пользователей, содержат информацию о глобальных характеристиках ещё не сформированного ответа. "

Они и предсказывают пошагово. Если же речь о том, что предсказания зашиты в весах сетки, то не понятно к чему это. Нейроны, учатся предсказывать значения. В этом весь смысл любой сети. Конечно в слоях будет скрытая информация о локальных и глобальных признаках. И естественно эти признаки предопределяют будущее предложение. Точно так же как это делает человек на основе грамматики например.

https://t.me/greenruff/2152

Та же ошибка предсказания в нейробиологии (Bastos) или минимизация энергии в работах (Friston). Не понятно, что конкретно они обнаружили и не является ли это, уже давно известным явлением нейронов (неважно искусственных или живых).

Причина почему мозг придумывает то, чего не было, в том что это его основа.
Биологическая основа механизма работы нейронов это Recurrent Predictive Coding, ошибка предсказания. Ее задача заключаются в том, чтобы свети к минимуму затраты энергии предсказывая сигнал. Чем лучше предсказали, тем меньше энергии будет потрачено на адаптацию к нему.

В вики в целом это описано: Прогнозирующее кодирование
https://ru.wikipedia.org/wiki/Прогнозирующее_кодирование
А так же в разделе Нейронное кодирование
https://ru.wikipedia.org/wiki/Нейронное_кодирование

Это механизм на уровне нейронов. Поэтому мы всегда предсказываем, даже если не можем вспомнить или не знаем. Это все перезаписывает нейроны. По сути память - ни что иное как предсказание ошибки и ее задача не помнить прошлое, а хорошо предсказывать будущее. Поэтому система адаптируется, предсказывая новые сигналы и таким образом меняя сеть. Это как инициализировать сетку значениями и затем обучить ее распознавать цифры. А затем удивляться, почему она вдруг придумала события и забыла реальные прошлые. Потому что так она лучше предсказывает входные сигналы.

Второй момент это верхнеуровневая ошибка предсказания, где управление идет через базальные ганглии. Дофаминовая система и механизм предсказания тесно связаны с поддержанием гомеостаза организма, то есть с нормализацией внутренних процессов. Организм стремится поддерживать стабильность, и любые изменения (недостаток или избыток веществ) становятся сигналами, которые запускают регуляторные механизмы.

Метаболические системы, такие как контроль глюкозы, жира или воды, играют важную роль в оценке положительных предсказаний. Если, например, организм чувствует, что его энергетические запасы восстановлены, это сигнализирует о том, что недавняя активность (например, поиск пищи) была успешной.

На примере страха: Мозг предсказывает, что, если уровень адреналина или кортизола будет слишком высоким, это приведет к повреждениям организма, и, следовательно, возникает поведение, направленное на уменьшение этих гормонов. Таким образом, эмоция страха — это не самоцель, а результат предсказания, что текущая ситуация угрожает нормализации гомеостаза. Поведение, которое сопровождает страх (например, бегство или защита), — это механизм, направленный на возвращение организма в состояние нормализации.

Поэтому задача мозга, просто предсказывать сигналы на уровне нейронов и их результат на основе поддержки гомеостаза организма (CO2, кислотности, глюкозы и так далее). Поэтому для него нет понятие воспоминания. Если изменение нейронных сигналов позволяет вернуть организм к нормальному уровню гомеостаза, то такой сигнал будет положительным и нейрон его запоминает. Так он приводит к уменьшению затрат энергии.

В этом ключе странно обсуждать, почему мозг что то забывает или придумывает. Это его основа - адаптироваться под лучшее предсказание сигнала, и не важно что раньше ты ездил куда-то или ел что-то, если данная информация не помогает или даже мешает восстановить гомеостаз. Отсюда и блокирование негативных воспоминаний, по сути стирание связей с ними, так как они приводят к дисбалансу физиологических процессов.

1) вы так и не ответили как бороться с галлюцинациями

2) вы неправильно описали главные причины галлюцинаций

https://t.me/greenruff/2095?single

Почему нельзя вот так разобрать и описать принцип выбора слов LLM, когда пишете статью?

https://t.me/greenruff/2104?single

Или кратко хотя бы показать, чтобы стало понятно.

О каких 1,4 до 1,9% галлюцинаций вообще идёт речь? Это зависит от температуры как минимум.

Хотите свести галлюцинации к минимуму на текущих моделях? Используйте несколько одновременно, где каждая выступает арбитром другой.

https://t.me/greenruff/1757?single

Тут описал данный подход.

Проблема все этих объяснений в том, что глядя на них не понимаешь почему происходит именно так. Почему данная архитектура. Что она за собой скрывает.

Я бы предложил вам включать разбор, что на самом деле происходит в таких архитектурах и почему они работают. Что на самом деле делает каждая подобная операция не на уровне, есть опробованный подход и он работает. А именно объяснить человеку.

https://t.me/greenruff/2109

На чем построен механизм softmax, и что он делает на уровне биологии.

https://t.me/greenruff/2115

В чем отличие работы мозга от классификаторов в нейронных сетях

https://t.me/greenruff/2125

Как именно различные подходы к классификатору реализуют частично биологию и почему это работает

https://t.me/greenruff/2134

Как в целом связана ошибка предсказания и механизма селективности (контраста, тот же softmax) и как можем правильно проектировать архитектуру, зная биологию этих механизмов.

Потому что классический подход к объяснению этих вещей на уровне взяли методы из нейронок потому что они себя хорошо показали, не позволяет понять человеку как работают нейронные сети. Кроме как заучить популярные решения и применять их. Но тогда и математика теряет смысл. Достаточно просто показать удачные решения и выучить их. А забивать голову чистым матаном, равносильно показу как посчитать , не объясняя само решение. Для этого достаточно курса математики, а не курса по нейронкам.

А одна из проблем затухающих градиентов, как раз в том, что они не учитывают модулирующий сигнал обратной связи , как это делает мозг. Которые подчеркивает важные признаки, и ослабевает менее важные. Поэтому на выходе у нас получается механизм предсказания, без учёта ошибки предсказания сигнала. Которая должна этот самый сигнал модулировать.

По хорошему надо разбирать теми кто учиться классическую 6 слойную архитектуру мозга, которая реализует все зоны и кортикальные области мозга и их подобласти в неокортексе.

Тогда у человека не будет вопросов, почему затухает тут сигнал. Как с этим бороться. Как классифицировать. Так как все это мозг прекрасно реализует сам.

https://youtu.be/lGnSQbEzI9s?si=OtzZdSh-I8VWF-to

Это с канала компании. В свое время тоже смотрел, пока не увидел управляющую насосами систему. И на некоторых видео слышно на сколько она шумная

Пока что, из всего что видел, вариант который меня больше всего впечатлил был к одного японца, который делает его уже более 10 лет. Такого нормального хождения, я пока не видел не у Тесла, ни у китайцев

https://youtu.be/aVJs_x2a9z4?si=RQAitkSBQEgHoXgk

Это уже давно и долго многие лаборатории разрабатывают.

В 2020 получал пол это грант в 2 млн руб. Сделали стендовое оборудование для проверки технологии. Дальше в РФ это заглохло.

https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanushcheysya-elektroniki-gflex

https://t.me/greenruff/1769?single

https://t.me/greenruff/1384

https://t.me/greenruff/1102?single

https://t.me/greenruff/1038

https://t.me/greenruff/387?single

https://t.me/greenruff/165?single

https://t.me/greenruff/48

https://t.me/greenruff/50?single

И так далее. Пока на заморозке. Может позже удастся вернуться к этому, но наверное в России нет смысла пробовать с этим дальше. Так как надо отрабатывать следующий шаг (более продвинутого производство) фотолитография тянущихся электронных плат. Материалы для этого разработали, технологию тоже, надо доделать R&D на отрыв маски от подложки после напыления жидкого сплава.

В свое время, мы обсуждали эту проблему. Я тогда описал, почему разный порядок данных влияет на процесс обучение, особенно в начале и набольших моделях (думаю и на крупных тоже будет разброс). Поэтому был проведен эксперимент, когда было проведено небольшое обучение GPT на одних и те же данные в чистой модели (не помню основа 2 или 3 версии бралась). Сначала порядок данных был от 1 до N, а затем сделали обучение когда скормили эти же данные но в порядке от N до 1. И оказалось что Loss и вообще качество обученной модели сильно отличаются друг от друга.

Я тогда описал на примере почему из одной и тоже логике получается разный результат. Так как в одном случае в начале обучения будет "Природа это добро. Природа важна.... Пауки важная часть природы и они ловят мух. Лягушки едят Пауков. " - что сделает связи в модели что Пауки это добро.

А при другом порядке данных будет "Природа это добро. Природа важна.... Лягушки едят Пауков. .... Люди хорошие.... Не люди плохие...Люди не любят пауков. ....Пауки важная часть природы и они ловят мух". Так вот во втором случае вывод сетки будет уже другой. Так как первичные связи более сильные и маршрут по ним уже проложен. Поэтому тут Пауки будет уже плохими. Хотя два одинаковых датасета.

Это можно сравнить с живым обучением. Если сказать, что кратчайший путь до магазина через ул. Маршала. Эти связи первичны для новой информации и будут наиболее сильные. Поэтому сказать человеку, что кратчайший пусть до магазина через ул. Кирова он запомнит, но все равно связь ул. Маршала будет сильнее, так как через нее уже много раз другие связи усилили этот маршрут. И чтобы теперь это изменилось на ул. Кирова, нужно чтобы условно это сказали 1000 раз.

Поэтому в итоге получаем кучу зашумленной информации. Обучение при этом усложняется, так как надо чтобы правильные ответы преобладали и вытеснили не правильные. На практике такого не будет. Если изначально в сетку ушло что 20*5 это 17, то она это запомнит (мы же в случайном порядке подаем данные). И вряд ли окажется, что будет огромное кол-во записей где будет описано что 20*5 = 100. Пример условный.

Поэтом порядок датасета играет первостепенную роль. А так же правило подачи данных. Вот LIMO - это про то что сейчас большие модели кишат такими не соответствиями. И если мы теперь скормим им правильные связи данных на основе длинных цепочке, позволяющие правильно связать эти разрозненные куски, то получаем отличный результат. И не нужно для этого обучать на новых и скармливать тонны информации. То что они делают, это как раз описывают правильные цепочки сразу "Природа это добро. Природа важна. Лягушки едят Пауков. Люди хорошие. Не люди плохие. Люди не любят пауков. Пауки важная часть природы и они ловят мух". Но делают это просто через длинные рассуждения, которые позволяют сразу охватить более длинные цепочки и правильно усилить эти связи.

С одной стороны согласен с данной гипотезой и одновременно нет. В свое время, часто писал, что последовательность обучения играет роль. То есть скормив одни и те же данные при обучении, но идущие в разном порядке приводят к разному качеству обучения. Проводили эксперименты.

Это можно привести на примере развития и обучения ребенка. Если мы скормим ему сразу кучу данных, но они будут менее структурированные и противоречивые. И эффективность будем маленькой. А затраты большие. Поэтому обучение делится на этапы, где сначала обучаем более обобщённым данным. Затем постепенно усложняем их на каждом шаге. Второй важный момент, это не просто скармливание данных, а скармливание обучающих данных, как это происходит в образовании. Где мы не изучаем все возможные тексты, а изучаем связи, объясняющие закономерности. Простой пример, временная шкала (у нейронок с ней были проблемы). То есть обучение работать с ней и понимать ее (завтра, послезавтра, сегодня, вчера и так далее).

Таким образом, новые данные мы вводим постепенно, а не сразу скармливаем все подряд. Собственно, то что описано в статье, частный случай, описывающий каждый этап обучения. Который в реальности должен повторяться, добавляя новые более сложные данные и усложнятся. По принципу как это происходит в образовании.

Постоянно удаляет или изменяет код ради "оптимизации". Были уравнения расчета - выкинет часть, чтобы упростить расчеты.

Типа было x = a exp(b) sin(c + phi), а он упростит до x = N*sin(c), где введет константу N.

Фраза "не оптимизируй" не помогает. В реальности - это не оптимизация, а ломание логики. Пока объяснишь, забьется контекст и он выкинет уже другое. Так как теперь механизм внимания LLM выделит другие более яркие детали.

И если человек на все 100% не понимает, что ему написала сеть (сам бы не мог это написать), то на выходе выйдет макаронный монстр. Так как любые модели LLM быстро скатываются на дно на сложном коде. Подключение к базе или обработку простых запросов Django/Flask они написать могут. Не могут грамотно написать архитектуру нейронной сети или сложную архитектуру на том же Django/Flask.

Сейчас LLM напоминают автопилот Тесла. Руки всегда надо держать на руле.

Чаще ситуация "лень писать код", но сетка своими "исправлениями" доводит до состояния "биться головой об стенку" (объяснял, объяснял - чего тут сложного то?). И тут появляется агрессия, мотивация и силы - и направляешь это на написание кода самостоятельно.

Как я понял, там в основе лежит ODE Solvers
https://github.com/rtqichen/torchdiffeq

Все построено на том, что нейроны описывают через некоторые дифференциальные уравнения, которые ближе к биологии нейрона. В целом, это не первый подход такой, хотя я его до этого не встречал (есть два других более продвинутых, где учитывается даже распад нейромедиаторов).

Сразу встает вопрос, почему это повсеместно не используется.

1) такие системы гораздо сложнее при обучении, так как очень чувствительны в параметрам настройки. То есть обучать их сложнее и дольше, поэтому их используют в специфических задачах, где итоговые модели не большие (вроде как для IoT).

2) они плохо заточены под GPU, а точнее не оптимизированы. Так как данные системы пока еще экспериментальные и не получили должного внимания, поэтому попыток их оптимизации под GPU либо нет либо в публичный доступ особо не выкладываются.

3) Во время обучения, стандартные оптимизаторы Adam и другие с ними плохо работают (если вообще работают) и поэтому под них нужны другие оптимизаторы во время обучения Optimazer ODE Solvers (заточенные именно под них). Это значит что под разные задачи надо писать свои

4) Адаптация множества уже готовых моделей, вроде трансформеров, механизмов внимания и так далее. Где надо видимо переделывать все под них.

Так что, пока это скорее лабораторные модели построенные на математике, которая ближе к биологии нейронов (хотя есть и более продвинутые модели).

Я не прав. Они именно реализовали иначе сигнал нейрона, сделал его ближе к биологическому, включая затухание сигнала и другие моменты. Тогда понятно почему он не выкладывают подробное описание архитектуры.

https://arxiv.org/abs/2006.04439
Нашел про Liquid Neural Networks (LNN)

LNN основаны на идее динамических нейронных сетей, способных адаптироваться к изменяющимся входным данным в режиме реального времени. Они имитируют свойства биологических нейронов, такие как:

  • Пластичность синапсов: Каждый нейрон или блок сети имеет свою «временную константу», которая определяет скорость затухания или интеграции сигнала. Эти константы являются обучаемыми параметрами, что позволяет сети адаптироваться к характерным временным структурам данных.

  • Непрерывное обучение: Модель обновляется без полного переобучения.

  • Устойчивость к шуму: Работают в условиях нестабильных или зашумленных данных.

Архитектура:

  • В отличие от стандартных дискретных RNN, LNN описывают эволюцию состояния с помощью обыкновенных дифференциальных уравнений (ODE). Это позволяет сети моделировать процессы на различных временных масштабах.

  • Включают рекуррентные связи и механизмы временной задержки.

  • Пример: Liquid Time-Constant Networks (LTC) от MIT, где нейроны имеют переменную временную постоянную.

Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 
Производительность слоя Mamba относительно слоя transformer, причем преимущество Mamba быстро растет с увеличением длины последовательности, Transformer: размерность модели 4096, 32 головы. Mamba-2: размерность модели 4096, размерность состояния 128, 8 групп 

Речь идет об этом (Mamba основана на SSM)
https://developer.nvidia.com/blog/nvidia-nemo-accelerates-llm-innovation-with-hybrid-state-space-model-support/

Про сами модели
https://docs.nvidia.com/nemo-framework/user-guide/24.07/llms/mamba/index.html

Статья об этом
https://arxiv.org/pdf/2405.21060

Так что похоже, что выше просто взяли Hybrid SSM и добавили LLN блок. Тут как файтюнить их модели
https://github.com/NVIDIA/NeMo/blob/main/tutorials/llm/mamba/mamba.rst

Сами модели для файтюнинга
https://huggingface.co/collections/nvidia/ssms-666a362c5c3bb7e4a6bcfb9c

Про Liquid Foundation Model на их сайте и везде описана сплошная вода.

"Это первый случай, когда архитектура без GPT значительно превосходит модели на основе трансформатора. " - вранье, Гибридные SSM обошли гораздо раньше трансформеры, да и просто SSM, вопрос только на каких данных.

"LFM имеют меньший объем памяти по сравнению с трансформаторными архитектурами. Это особенно актуально для длинных входов, где кэш KV в трансформаторных LLM растет линейно с длиной последовательности. " - намекает на то, что они используют SSM в основе.

В общем почитав их сайт и все что доступно. Доверия они не вызывают. Какое то ощущение, что взяли SSM туже Mamba и прикрутили блоки LNN, чтобы обеспечить латеральное торможение на входе в каждый блок SSM. Может я не прав, но ни каких серьезных намеков на описание их архитектуры нет. А в остальном, ну очень похоже на описанное выше.

Если я правильно понял, то главное отличие LNN это ингибирование у нейронов. Это когда наиболее ярко выраженные нейроны, подавляют рядом менее выраженные нейроны и тем самым создают контраст. Так происходит в некоторых слоях мозга.

Не могу найти полную архитектуру их llm модели, так как только на LLN принципиально не улучшить. Так совпало что сегодня как раз добавил ингибирование нейронов, но только реализовал немного иначе через модуляцию свёртки и softmax. Делал латеральное торможение у модели (сейчас обучается чтобы сравнить результат). Но это как дополнение архитектуры, с целью перенести латеральное торможение из биологии. Я к тому, что этого явно не достаточно чтобы стать лучше текущих реализаций llm.

Но в описании говорится про временные параметры. Это ни какого отношения к LLN не имеет. И есть сильно сильное подозрение, что тут использовали SSM модели и скрестили их латеральный торможением. Но SSM и без латерального торможения отлично работают.

Ограничение окна в 32К, намекает на то что они используют Hybryd SSM от NVIDIA из Nemo. Это гибрид трансформеров и SSM. Где Nvidia выкладывала предобученную модели (или описывала чужие , точно не помню) и в разделе Nemo -ssm есть на них ссылки для дообучения. Они действительно считаются, что превосходят трансформеры по всем пунктам описанным выше.

И если так, то это совсем другая история. И использование LNN подхода, просто возможно немного улучшили модель. Но в любом случае латеральное торможение это не панацея.

Так что смахивает на то-то взяли hybrid ssm, добавили к нему латеральное торможение реализованное через LNN и затем в описании описали свои дополнения с возможностями hybrid ssm. Но звучит это так, словно именно LNN привела к этому. Манипуляция какая то

Deepseek сделала прорыв не в архитектуре, а в оптимизации существующей архитектуры.

Так что с одной стороны он прав, а с другой существенная оптимизация текущей архитектуры LLM на базе трансформеров без потери качества, тоже большое достижение. В deepseek тоже была проделана большая научная работа, чтобы оптимизировать. Если на то пошло, то когда в llm сделали упор на механизм внимания, убрав много другого, то это тоже была своего рода оптимизация архитектуры. Так же адаптировали ее под эти изменения. Просто все шло постепенно, а не так что сразу открыли что то новое.

Но в целом да, deepseek именно оптимизировал текущую архитектуру трансформеров. Прорыв это? В плане удешевления обучения потребления ресурсов по прорыв. В плане принципиально новой архитектуры? Нет.

Поэтому стоит скопировать ответ из ChatGpt или чего там, перенести его в Deepseek и попросить повторить. "покритикуй. С чем согласна? С чем не согласна?"
Они так бесконечно могут высасывать из пальца проблемы. Тут главное во время остановиться. Но обычно в такой момент это уже становиться очевидным, когда например скажет "а вот это не учитывает чего то , что не входит в задачу"

Пробовал написать игру за неделю только средствами chstgpt. Все остановилось когда надо было склеивать код. Надо самому его адаптировать. Когда игра сложнее тетриса, то самому. Да и часть проблем, llm не может решить, когда сцены не правильно прогружались согласно инструкции chstgpt и куча нюансов. Так что все равно писать самому, чем потом разбираться что за разрозненные классы он насоздавал. Самому быстрее сделать .

А вот что реально помогло, это развёртывание своих gpu серверов на арендованных мощностях, через которые генерировал звуки, или изменял детали изображения на основе controlnet (или как правильно не помню точно называние), когда надо у рисунка изменить какие то делали не изменяя сам рисунок. Или поднимал сетку, которая генерирует сложные звуки, вроде шум дождя и на фоне должен звук приза.

Опишите такой опыт.

Вот тут была отличная книга по ним.

https://ozon.ru/t/wEdWXP2

Но если вы ещё напишите статьи об этом, то ценность будет огромная.

Очень хотелось бы, чтобы кто то написал ещё и более общую статью. Про использование расспараление на верхнем уровне, например rayserve. Со всеми auto scaling и прочими вещами. Я использую его, но там ещё думаю много скрытых моментов, которые не использовал и не изучал. Вдруг на Хабре есть эксперты, кто вдоль поперёк на них распаралеливал задачи обучения. И описал бы нюансы, а их там не мало (от настройки до ограничений пропускного канала и других мелочей).

Информация

В рейтинге
4 707-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность