Comments / Profile of ivan_ilushenko / Habr

How to become an author

Иван Ильющенко @ivan_ilushenko

ML engineer

ProfileArticles1PostsNewsComments15

Человек-клей: как я нашел самого неэффективного сотрудника, чуть не уволил, а оказалось, что на нем все держится

ivan_ilushenko May 23 at 09:27

Резюмируя, Петя - ДнДешный бард. Дамаг не очень, защита не очень, спеллы высоких кругов не кастует и на первый взгляд непонятно, зачем он такой вообще нужен. Зато песни крутит такие, что варвар рубит в капусту в два раза сильнее, а танк в одну каску держит целого дракона.

Возвращаюсь к работе мозгом после месяцев кодинга с LLM

ivan_ilushenko May 23 at 08:31

Какого чёрта вообще происходит?

По моему скромному мнению:

В генеративный ИИ инвесторы вложили огромную кучу денег, и продолжают вкладывать еще больше. Инвесторы не альтруисты, и хотят вернуть инвестиции с прибылью. Но технология еще объективно не готова, и не понятно, сколько еще нужно вложить, чтобы она была готова.

Более того, не понятно, может ли она решать заявленные задачи в принципе в том виде, в котором это сейчас постулируется, т.к. никто не знает пределов скалирования моделей. Может быть, это все окажется гигантским пузырем без реального выхлопа.

Инвесторы эти риски естественно понимают. Поэтому целенаправленно был поднят хайп с целью отбить деньги.

Массовые увольнения в российском IT: что на самом деле происходит в компаниях — взгляд CEO

ivan_ilushenko May 14 at 10:45

К концу 2027 года ИИ будет умнее любого человека

Всегда вспоминаю этот мем от таких прогнозов.

Я бы сказал, что к концу 2027 года ИИ может быть умнее любого человека. А может и не быть.

Больше нет входа в IT. Только выход

ivan_ilushenko May 12 at 13:38

Дополню рассказ:
А затем сеньоры стали умирать. Просто от старости. Их становилось все меньше, и все меньше людей понимали, как работать с AI системами. Корпорации и правительства спохватились слишком поздно, а обучение новых специалистов было организовано слишком плохо. Через 30 лет уже никто не мог отрефакторить код, сгенерированный AI. Никто не понимал, как он работает, никто не мог проверить его корректность. Людям оставалось только верить, что он работает. Вскоре самообучающиеся генеративные сети начали стремительно деградировать, т.к. из сети исчез новый код - последние строчки кода в опенсорс писали те самые сеньоры, которые уже умерли. В сети остался только сгенерированный самим AI код, который не содержал новых идей. Поначалу незаметная, деградация усиливалась по экспоненте. Через 5 лет генеративный ИИ не мог написать ни одной работающей функции, т.к. интернет был заполнен некачественными сгенерированными проектами, и отфильтровать их никто не мог. А квалификации людей не хватало даже на то, чтобы откатить модели на несколько лет назад. В течение года все датацентры с ИИ были обесточены за бесполезностью. Тем временем энтузиасты в древних частях Интернета нашли программы, написанные еще людьми, и начинали медленно в них разбираться. До появления большой языковой модели, написанной новыми инженерами, оставалось 10 лет...

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

ivan_ilushenko Jan 14 at 13:37

Технически все несколько сложнее, но в общих чертах да: берем предобученную LLM, смотрим ее ответы и говорим ей, что вот тут вот хороший ответ, а вот так отвечать не надо.

https://habr.com/ru/articles/755904/

LLM сразу после предобучения на сырых данных довольно "дикая", и никакого просветления там нет. Чтобы с ней можно было общаться в режиме чата (или в любом другом режиме, который нужен) все же прикладываются дополнительные усилия, в т.ч. с ручной разметкой специалистами.

Сэм Альтман знает, как достичь AGI. Я тоже, и сейчас расскажу как

ivan_ilushenko Jan 14 at 09:29

По сути так сейчас и работает. Сначала формируют структуру модели, заливая ее сырыми данными из Интернета, а затем делают RLHF - т.е. буквально (опуская технические детали с reward моделью) сидят с AI и рассказывают ему, как себя надо вести, а как не надо.

Первый этап можно условно соотнести с этапом "рождения и развития интеллекта", а второй с образованием.

Вот все и пытаются "родить" LLM с максимальным количеством потенциального IQ, заливая его вычислениями, т.к. с этапом образования все плюс-минус понятно.

Меня тут беспокоят только две вещи:

Какими бы прямыми не были логарифмические графики, в реальном мире все прямые в любых законах приходят к насыщению. Те же вычислительные мощности нельзя скалировать бесконечно, рано или поздно физика скажет "Стоп". Когда это произойдет непонятно, но произойдет обязательно. Мб завтра, и тогда на этой прямой AGI мы получить не сможем. Это риск.
Естественный интеллект пока требует радикально меньше вычислительных мощностей, чем искусственный. Эта оптимизация обеспечила нам выживание, но она несет определенные последствия - мы сильно проигрываем в скорости вычислений и качестве памяти. Так может надо не пытаться сделать то, что уже сделано, а улучшить имеющееся? Аугментировать естественный интеллект, взяв лучшее из двух миров. Здесь, правда, встает куча проблем - мораль, безопасность, технологии, но, кажется, потенциальный профит здесь тоже значительно выше.

Нейросети vs Stack Overflow: что происходит?

ivan_ilushenko Jan 13 at 08:31

У ЛЛМ действительно спросить проще, чем у SO, если это старый вопрос, и ЛЛМ знает на него ответ. Знает в том числе скорее всего с того же SO, если он входил в обучающую выборку, или ЛЛМ ходит в т.ч. на SO с помощью RAG.

А вот если закрыть SO, смогут ли ЛЛМ так же хорошо отвечать на новые вопросы по новым фреймворкам?

Всё, что вам нужно — это линейное внимание

ivan_ilushenko Jul 8 2024 at 12:44

Если не хотите лазить по статьям, то вот краткий ответ: трансформерные нейронные сети (к которым относятся и большие языковые модели, например ChatGPT) обсчитывают каждое слово (на самом деле токен, что является частью слова, изображения или другой сущности, но для простоты пусть будет слово) с помощью последовательных матричных умножений.

Но в языке важен контекст, в котором это слово стоит, поэтому при обработке каждого слова классический трансформер "ходит" за информацией к каждому другому слову.

Этот механизм и называется вниманием, или attention, т.е. слово обрабатывается с обращением внимания на все остальные слова в контексте. Поскольку в классическом трансформере используется внимание "каждый-с-каждым", то вычислительная сложность растет квадратично от длины контекста. Вдобавок там еще и квадратичные требования по памяти из-за операции softmax, т.к. всю матрицу n*n надо держать в памяти.

Длинный контекст позволяет делать многие крутые вещи, которые не позволяет короткий контекст, например сеть с длинным контекстом можно попросить прочитать большую статью и объяснить ее. Поэтому львиная доля работ по трансформерным архитектурам направлено на повышение эффективности механизма внимания за счет снижения его качества. Усилия направлены на то, чтобы эффективность повысить как можно сильнее, а в качестве проиграть как можно меньше.

Я проработал в IT больше 10 лет. Вот 5 вещей, которые я бы хотел знать, если бы начинал сейчас

ivan_ilushenko Jun 10 2024 at 06:50

Количество людей, "предназначенных" для IT (по складу ума и характера) вряд ли сильно изменилось. Поэтому "перехерачить" выпускников инфоцыганских курсов для таких кандидатов не сильно сложно.

Другое дело, что пройти HR-фильтр практически нереально, там тебя не заметят в огромном потоке кандидатов. Так что залезть в IT можно джуном, но надо пробивать место на собеседование самому, через знакомства.

Разбор документа про AGI от Леопольда Ашенбреннера, бывшего сотрудника OpenAI

ivan_ilushenko Jun 6 2024 at 16:53

Модели могут поражать воображение своими ответами на довольно сложные вопросы, и ровно эти же модели могут поражать воображения абсолютно идиотскими ошибками, которые человек никогда не совершит.

Вот буквально, сейчас она рассуждает о теории разума, следующим запросом фейлится на задачке вида "в комнате было 4 свечи, 3 свечи задули, сколько в комнате осталось свечей?"

Подсовываешь фотографию автомобиля и спрашиваешь что это, она распишет про эту марку и ее характеристики абсолютно все. Поменяешь один пиксель, и модель становится уверенной, что смотрит на банан.

Это прямо следует из того факта, что человек и модель получают и обрабатывают информацию принципиально разными способами, см. adversarial attacks.

Устранимо ли это простым увеличением размеров модели и качества данных? Не знаю, время покажет. Может сказаться, что и нет. На сегодняшний день атакам подвержены все модели, вне зависимости от размера.

Будете ли вы доверять такой модели ключевые и ответственные решения? Кажется, что нет.

Ключевая разница между МЛ моделями и человеком: модель не умеет адекватно экстраполировать. Она не способна сделать какой-либо вывод на данных, выходящих за пределы обучающей выборки. Т.е. если модель учить на данных, сгенерированных предыдущими поколениями моделей, то модель деградирует.

Человек, учащийся на данных, сгенерированных предыдущими поколениями людей, развивается.

Появится ли это свойство при увеличении размеров моделей еще на три порядка? Хз, поглядим. Может быть это и будет ключевым свойством AGI.

Разбор документа про AGI от Леопольда Ашенбреннера, бывшего сотрудника OpenAI

ivan_ilushenko Jun 6 2024 at 11:32

По вычислительным ресурсам тоже вопрос - мы не знаем, как долго мы можем увеличивать наши вычислительные возможности и сколько их потребует AGI.

Может так случиться, что не хватит. Или это будет планетарный AGI в единственном экземпляре.

При дообучении огромной модели после каждого инференс запроса много инженерных трудностей. Это как с колонией на Марсе - теоретически вроде хоть сейчас, но на практике надо прорву денег, пока не получится и по срокам тоже хз.

Как по мне, слишком много неопределенностей для прогноза "AGI к концу десятилетия".

Разбор документа про AGI от Леопольда Ашенбреннера, бывшего сотрудника OpenAI

ivan_ilushenko Jun 6 2024 at 11:16

Мы полетели не из-за эмерджентности, а из-за качественного и радикального изменения подхода к выживанию (относительно муравьев).

По поводу прогнозирования тоже поспорю - на момент появления трансформеров в 2017 году никто и не догадывался, какими свойствами могут обладать 175B трансформеры, обученные на триллионах токенов.

Однако попытка масштабировать те же конволюционные сети до условно 100B ни к чему хорошему не приводят, они не становятся умнее. Попытки сделать из LSTM большие и сильные LLM тоже пока мало к чему привели (недавно была статья о новых LSTM, но они все равно хуже трансформеров).

Т.е. где-то у трансформеров, как и у любой архитектуры, есть предел, где он - предсказать сложно, не скажем пока не уткнемся.

Плюс у всех нейросетей есть большой минус - отсутствие памяти, "жизненного опыта" если хотите. Каждый инференс мы должны передавать им весь предыдущий контекст, это жутко неэффективно и накладывает сильное ограничение на существование AGI в этой парадигме. Представьте, что вы используете AGI дома на протяжении 20 лет, вы каждый инференс будете передавать 20-летнюю историю? Можно попытаться соорудить память, как в mLSTM, но там свои ограничения. Т.е. сеть останавливается в развитии в момент окончания обучения. Онлайн-обучение какой-нибудь GPT-4 это пока трудоемкая задача.

А если у большой сети будет своя память, то не "сойдет ли она с ума" от миллионов запросов в секунду? Делать отдельную память (читай личность) под каждого пользователя? Как вариант, но кажется здесь тоже будут ограничения.

Разбор документа про AGI от Леопольда Ашенбреннера, бывшего сотрудника OpenAI

ivan_ilushenko Jun 6 2024 at 10:47

А если увеличить количество муравьев в муравейнике в миллион раз, они образуют супер-муравейник, построят космический шаттл и полетят к звездам?

Упс. Не полетят. Эмерджентность существует, но у любого явления есть границы.

Разбор документа про AGI от Леопольда Ашенбреннера, бывшего сотрудника OpenAI

ivan_ilushenko Jun 6 2024 at 10:23

С 2019 по 2023 год, от GPT-2 до GPT-4, был пройден путь от моделей с интеллектом дошкольника до моделей, сравнимых с одаренным старшеклассником. Этот гигантский скачок произошел всего за 4 года.

Нет, это ложное утверждение. GPT-4 знает много, но модель не обладает интеллектом. Это понимает любой, кто поработал с LLM хотя бы один рабочий день. Ее нельзя сравнивать ни со старшеклассником, ни с дошкольником. По объему знаний? Ну давайте с википедией еще сравнивать, та тоже много "знает".
LLM не может стать AGI, сколько весов в нее не заливай, просто потому что это языковая модель. Она может делать крутые штуки, она может быть очень большой, но это просто языковая модель.

AGI скорее всего будет, но весьма вероятно он будет построен на несколько других принципах. Предсказать его появление со сколько-нибудь адекватной точностью практически невозможно, т.к. в ИИ вкладывают большие деньги, им занимается много людей, прорывное открытие может случиться хоть завтра (а может и через 10+ лет).

Но кто сказал, что AGI будет намного умнее человека? Современным LLM системам зачастую требуются десятки минут, чтобы пофиксить простой баг в гитхаб репозитории. Это быстро, но сравнимо с человеком. Это не микросекунды. Если мы сделаем AGI, то вполне возможно что он будет думать не намного быстрее и не намного лучше человека. Плюс только в том, что, в отличие от человека, AGI можно распараллелить на множество устройств, но технологической сингулярности может и не быть.

AGI может эффективно использовать все знания Интернета? Ну давайте сделаем чип в мозг к человеку с прямым подключением к Интернету, чем не сверхразум? Добавим в чип АЛУ для быстрых вычислений и точную память. Может быть AGI появится в этом направлении, как синтез человека и машины.

В общем, скептически я отношусь к технологической сингулярности (тм). Особенно в ближайшее десятилетие, весьма маловероятно.

Как человеку достигнуть бессмертия практически

ivan_ilushenko May 20 2024 at 08:15

Меня всегда в идее переноса личности волновал один вопрос.

Вот, например, я. У меня есть свой внутренний наблюдатель, которым я себя и ощущаю. Доказать наличие такого же внутреннего наблюдателя у других людей пока не представляется возможным (если это возможно в принципе). Более того, когда я поднимал эту тему, некоторые люди не понимали, о чем я говорю, что заставляет меня подозревать, что не каждый человек в принципе себя осознает личностью (шутка, а может быть и нет).

Вот я решил перенести свою личность. Иду в некий Центр Переноса Личности. Меня вводят в искусственную кому. Создают моего клона, переносят состояние моего мозга клону (например, методом, описанным в статье). Просыпаемся и я, и мой клон.

Вопрос: а в чьем теле буду ощущать себя я, как внутренний наблюдатель? Логично предположить, что в оригинале. А буду ли я как-то ощущать "себя" в клоне? Кажется, что нет. Это будет точная моя копия, она будет думать как я, и она будет думать что она - это "настоящий я". Для внешнего наблюдателя мы будем не отличимы. Но фактически это будет другой человек.

Если в процессе переноса оригинальный "я" умру, то логично предположить, что я не "проснусь" в теле моего клона. Я по-настоящему умру, мое сознание исчезнет. А вот для всех остальных людей я буду продолжать жить, моя копия будет утверждать, что все ок, перенос сознания прошел гладко.

Усложняем эксперимент. А если создать клон без мозга, а потом пересадить клону мой мозг, то буду ли я ощущать "себя" в клоне? Ну, наверное, буду. А если пересадить только часть мозга? А если только ту часть, что отвечает за личность? А если половину этой части или треть? Где "я" буду "жить"?

Самое печальное, что если наличие "внутреннего наблюдателя" и его идентичность нельзя проверить, то сама формулировка вопроса будет ненаучной.