Джимшер Челидзе @Dzhimsher
Работаю на стыке бизнеса и ИТ
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Date of birth
- Registered
- Activity
Specialization
Chief information officer (CIO), CDTO / CDO / Руководитель проектного офиса
Lead
Project management
People management
Agile
Development management
Project planning
Organization of business processes
Business development
Strategic planning
Information Technology
Strategic management
Увы и ах, интерес сейчас пропадает быстро :) Но ряд комментариев был интересный, учел в работе над книгой :)
Можете поделиться источником? Очень интересно изучить для исследований и книги.
Да, интересно. Вы правы. Чтобы он начал развиваться, у него должна появиться любая потребность и ее осознание. Спасибо.
Вы правы, сами трансформеры с 2010-х, сейчас появляется SSM, как конкурент трансформерам.
Но это все продолжение текущих технологий и методов обработки данных. Из того, что я знаю, радикально новое будет в квантовых и нейроморфных вычислениях.
Опять же, любая новая технология займет 10-15 лет на освоение. И как Вы правильно заметили (и я в статье написал), в ближайшие годы потребуется до триллиона долларов. Это огромные деньги, с учетом того, что пока в реальном бизнес-секторе ИИ на базе LLM не оправдывает надежд. Основное применение - машинное зрение и видеоналатика. Опять же, это мое мнение :)
Опять же, экстенсивный рост не возможен бесконечно. Текущие технологии не энергоэффективны и требуют огромного количества данных. Даже не LLM, а обычные решения. Из-за этого страдает стоимость внедрения и сроки.
Но конечно все рассудит история. В статье мое мнение :)
Интересное мнение :)
Я абсолютно с Вами согласен.
Поэтому в статье и говорю, что на текущем уровне развития. Поэтому все ожидания по ближайшему развитию AGI очень "натянуты", как мне кажется.
Нужно дождаться развития новых архитектур: которым нужно меньше данных, меньше энергии и т.д.
То что есть сейчас - разработки 30-40 летней давности и мы наблюдаем их развитие, прикладное применение. Поэтому сейчас будет временный тупик.
К сожалению эта статья хорошо ложится в понимание в контексте других статей и книги (это одна из глав). Но именно такие же тезисы в итоге привожу я, в том числе разбивая маркетинговые ожидания чуда.
Тема синтетических данных интересна. Но тут возникает вопрос:
- нет ли ошибки в них, не будет ли модель отравлена
а кто будет давать ИИ-модели обратную связь? Или мы используем обучение без подкрепления, но тогда нужна разрабатывать алгоритмы генерации синтетических данных.
Ахах, ну так и речь в статье не о чат-боте :)
Поэтому и страх людей понятен. Чувсвтуют гады :)
Выша трактовка AGI схожа с супер‑ИИ. Так или иначе, до супер‑ИИ разговор идет об определенной области, где данная система будет работать. И о том, как она будет работать.
AI — это узкоспециализированные задачи. AGI — общие задачи, но в определенной области. Универсальный и всеобщий AI — это уже про супер‑ ИИ. Это как с человеком. Он врач, но это не означает что с ним нельзя поговорить о бейсболе. Я рад, хоть вы не съехали в искусственное сознание.
Тимур, ну вот еще раз мы и приходим к статье.
Я поэтому в статье и указал, что я прячу под трактовкой AGI, а что под супер AI (ASI).
В остальном, мы с Вами говорим по сути об одном и том же. И Ваш подход к созданию мне Импонирует. Именно такой я и продвигаю (в тех же статьях про цифровые советники). И проблемы у нас с Вами идентичные. У нас с Вам различаются отдельные слова, но не суть :)
Было бы интересно это все обсудить вживую, так как практиков в этом направлении единицы, а стоящих материалов еще меньше. А уж материалов, которые хотелось бы обсудить и поспорить...
Благодарю :)
Вы меня, конечно же простите, но не процитируете, а где я такое утверждал? И чего вы так привязались к транформерам? Это архитектура, которая позволила создать определенный не плохо функционирующий элемент. Но это совсем не означает, что весь AGI должен строиться на этой технологии.
Я ответил Вам на Ваш тезис о том, что мое заявление о росте возможностей связан с ростом сложности этой системы. А трансформеры в данном случае пример. Вы говорили про разные архитектуры для решения разных задач. Да, совершенно верно, но в любом случае AGI будет задачей иного порядка, и никакая текущая архитектура не будет способна решить эту задачу простой системой.
Поясню на примере. Ок LLM — это затылочная ассоциативная кора, сделанная по технологии транформеров. Затылочная зрительная кора — машинное зрение — это свёрточные сети. Более того, ну нельзя, например, от затолченной ассоциативной коры требовать поддержания температуры тела. И тем более когнитивных действий!
Когда вы говорите об AGI то разговор идет о сложной системе, где LLM может быть лишь ее частью, и разговор может идти о разных «участках», и для каждого их них может примется своя технология. И при этом число параметров совершено не информативно. Например, в нашем проекте центр эмоциональной оценки — это вообще прямой алгоритм, то есть 0 параметров. А кто-то для своих задач модет сделать это иначе, например, применяя даже не GPT-3, а GPT-2 или иное, например TextBlob или spaCy.
Вот, собственно Вы и приводите те же аргументы, что и я. Комбинирование различных моделей приводит к усложнению системы. Мы с Вами приходим к тому, что нужен оркестр моделей на разных архитектурах. Теперь возвращаемся к исходному тезису в статье о росте сложности и росте количества точек отказа. Разве мы не об одном и том же говорим?
"Во-первых, данных недостаточно для чего?! Обязательно нужно указывать для чего именно недостаточно! Для понятийного аппарата - это нормально. Для базового обучения AGI (создания "инстинктов"; не путать с обучением его ассоциативной коры) нужны иные знания в предметной области за рамками понятийного аппарата. Например, в нашем проекте - это модели бизнес-процессов, иерархии объектов управления, и так далее. Для AGI типа Доктор Хаус - модели заболеваний и модели организма.
Более того, для AGI более важным становиться создание собственных знаний, извлекаемых из внешней среды и опыта. Это про другое!!! Это не про то, что учить LLM."
Интересный комментарий. Но опять же, ключевая задача AGI - умение ориентироваться в неопределенных ситуациях и переключаться между ними. Вы в описании начинаете уходить в специализации, что уже противоречит концепции AGI. AGI Доктор Хаус это не AGI, это уже специализированное решение, как Eliza в 1960-х.
При этом, для решения бизнес-задач Ваш подход абсолютно оправдан. Я сам сторонник такого подхода - специализированные решения, которые не будут иметь ограничений от регуляторов и экономически оправданы.
Но еще раз, это не AGI
А ничего, что это ограниченно коммерческая компания? То есть цель ее не заработать денег, а создать AGI. То цели быть прибыльным нет!
Совершенно верно, и об этом написано далее. Что все такие проекты не про коммерцию и финансируются из других соображений. А значит и все другие это понимают и будут ставить ограничения на развитии технологии.
По поводу всего дальнейшего. Воспримите это тоже как от приятеля с улыбкой: "Перечитайте и вникните". Одна из бед "экспертов" - снисхождение и любовь делать заключение по обрывочной информации, тех триггерах, которые их зацепили :)
Это примерно также, как я заявлю о том, что Вы ничего не поняли, на обрывке Вашего комментария о AGI Доктор Хаус. AGI в чистом не может иметь специализации, и об этом написано в начале статье. Но заметьте, я с Вами дискутирую и подсвечиваю это, спокойно разбираю, не спускаясь до снисхождения и не обесценивая Ваш опыт. Так прекрасно понимаю, что письменная коммуникация имеет ряд барьеров, а для разбора наших тезисов нужна площадка и живое общение.
Спасибо за дискуссию.
Вы абсолютно правы.
Наибольшая проблема - предварительное обучение. Дальше можно конечно оптимизировать модель по специальность. Но если мы говорим про AGI, то объем данных для предварительного обучения на текущих решениях трудно представить. Как описали тут некоторые комментаторы, у людей уже данные закончились.
И мне очень приятно Ваше видение про агентные системы. Я сам сторонник этой гипотезы. Но реализовывать их крайне трудно. Я с одним человеком пробую такой проект, но это несерьезно. Там как-только начинаешь использовать 2-3 агента для решения отдельных задач, начинаются огромные проблемы. Поэтому в своих статьях я ранее и писал, что в целом в развитии ИИ важно направление ИИ-оркестраторов, которые и будут распределять задачи между разными моделями / агентами
" Гогда зачем хомячить и повторять за маркетологами слова от которых нужно отнять 100, поделить на 1000 и умножить на 0, потому что вы явно заявляете в статье, что нужно больше инфы для моделей. "
Где я писал, что нужно идти по такому пути? Я написал, что это проблема. И если посмотрите заключение, то я прямо указываю, что есть другой путь - использование локальных моделей со специализацией :) Не надо мне приписывать додумываний :)
"И вы уже с первого абзаца начинаете подтверждать мои слова вот этой фразой: "И все чаще от разных компаний мы слышим про сильный ИИ. Но что это и стоит ли ждать его создания в ближайшее время?"
Суть в том, что вы около "научно" рассуждаете об крайне спорных маркетинговых заявлениях, поэтому тут и есть недовольство в комментариях."
Так, позвольте, уточнить. А в чем претензия? У нас нет шумихи вокруг ИИ и терминов с сильным ИИ? Есть шумиха, я дал определение что же такое сильный ИИ и далее в статье разобрал, почему же его в ближайшее время не будет. Соответственно у статьи есть тег "Мнение", и если Вы прочитаете не один абзац, а всю статью, то увидите и ответ, что же я вижу в развитии.
Так что же именно Вас смущает?
"Ну я так и не услышал ответ на это: "непонятно почему автор сравнивает человеческий мозг и несовершенные LLM модели которые с ним схожи только некоторыми концепциями, и на основе этого делает какие-то выводы в будущем"
Возможно я не увидел вопроса. LLM были приведены как один из примеров, особенно в контексте того, что именно с LLM связывают текущие проекты сильного ИИ. Опять же, принципиально LLM не отличаются от других ИИ, у них специфика в том, что они обучались на естественном языке и нам проще с ними взаимодействовать. А архитектура, глобально, не отличается. Единственные большие отличия начинаются если мы идем в нейроморфные и квантовые вычисления.
Благодарю.
Вы очень верно подметили, что человек обучается на объемах данных, которые на порядок меньше, нежели нужны для текущих поколений ИИ.
Примеры в виде LLM приведены исключительно по причине наиболее понятного инструмента. И весь разговор о сильном ИИ сейчас идет в контексте LLM (что ошибочно).
Поэтому проблема действительно не в количестве и качестве инфы, а в том, что текущие ИИ-модели достигают предела и нужны иные подходы к его проектированию. Единственное из того, что сейчас попадается в изучениях этого вопроса - квантовые и нейроморфные вычисления. Но там технология настолько незрелая, что говорить о чем-то серьезном слишком рано.
Относительно определения ИИ - действительно, все они размытые. По сути это любой инструмент имитации умственной деятельности. Даже эксель с формулами можно так обозвать. Именно поэтому я в статье привел определение и критерии сильного ИИ.
Интересная аллегория. Но в статье не идет речи о замене работников.
Речь о проблемах сильного ИИ.
Для замены нишевых специалистов сильный ИИ не нужен. Особенно для замены менеджеров и специалистов отделов в аппаратах управления и узких "интеллектуальных" специальностей. Там специалистов легко заменит слабый ИИ + выстраивание процессов.
Обоснование ровно в том же стиле, которое у Вас.
Вы использовали жаргонное выражение без подкрепления тезиса, а теперь обижаетесь, что в отношении Вас было выбранно жаргонное вырежение. Удивительно, а нас то за что...
Спасибо большое за развернутый комментарий :)
1. «Экспоненциальный рост сложности разработки и деградация сложных моделей.»
Этот не очевидный тезис требует серьезного обоснования. И это можно не делать, так как практика это опровергает. Никакой экспоненциальной сложности при правильном выборе архитектуры нет. И о каких моделях именно идёт речь в контексте деградации?
То есть, Вы утверждаете, что создание сильного ИИ станет возможно на архитектуре и с количеством параметров равным той же GPT-3? Или эволюция от GPT-3 к GPT-4 не сопровождается ростом количества "нейронов", а рост количества нейронов не приводит к увеличению взаимосвязей? Верно я Вас понял?
2. «Недостаток данных для обучения.»
То, что вы слышали, что GPT-5 испытывает нехватку данных, вами неверно интерпретируется. LLM – это один из видов ИИ, решающий по сути ту же задачу, что и затылочная ассоциативная кора человеческого мозга – это система понятий. То, что кончились понятия, которыми оперирует человеческое познание – вполне нормально и ожидаемо. Кто говорил, что их количество бесконечно? Словарь любого языка не превышает 100 тыс. слов. Количество понятий – меньше, чем число параметров GPT-5.
То есть, мое утверждение о том, что данных недостаточно Вы опровергаете тем, что данных недостаточно? Или в чем смысл? В чем именно мой тезис неверен?
«Стоимость создания и эксплуатации. »
Стоимость создания. Пока все в рамках стандартного объема инвестиций. Эксплуатации – зависит от отрасли или сферы работы AGI. Но как правило, кожаные мешки обходятся дороже.
Интересное мнение. Тогда почему, согласно исследованиям, почти все ИИ -проекты убыточны? И та же Open AI отчитывается об убытках?
«Привязанность к ЦОДам и требовательность к вычислительным ресурсам. »
И что? Новая технология требует своей инфраструктуры. Проблема-то в чем,?
Проблема в том, что это ограниченный и уязвимый сильный ИИ. Собственно об этом и речь в статье :)
«Низкая эффективность текущих моделей по сравнению с человеческим мозгом. »
Терминологию уточните, плз. Эффективность – количество правильных результатов к совокупным издержкам. Может разговор о результативности? И как вы делаете заключение о более низкой результативности AGI, наблюдая за слабым ИИ? Странно, не находите ли?
Разговор об эффективности: количество данных и энергии на вход, для получения сопоставимого результата. Эффективность - относительная величина затрат на результат.
Если говорим о данных, то для обучения решения одной и той же задачи (условно распознавание кошки от собаки) ИИ надо "скормить" на порядки больше данных, чем для обучения.
Тоже самое для энергии. ИИ-модели текущего поколения требуют для обработки данных кратно больше энергии. На обработку 1 запроса тот же GPT-4 (который как мы с Вам уже выяснили не сильный ии) уходит до 0,5л воды на охлаждение.
За указание на ошибку спасибо, исправил
Что касается совы на глобус - это Ваше мнение. Пока больше похоже на пердение в воздух.
Там приведены конкретные проблемы, если есть обоснование почему нет, то приводите.
Вы считаете, что сильному ИИ достаточно будет 1 сервера? Что не понадобится разворачивать целую инфраструктуру, набирать штат инженеров?
Я эту проблему тоже расписываю в книгу и в новую статью. Скоро опубликую.
Вообще сбежать такому ИИ будет крайне трудно, на текущем уровне развития. Под него нужен будет отдельный ЦОД
" Грубо говоря, модель постепенно откидывает старые знания, которые не пригодились во время файнтюнинга (RLHF не исключение)."
Ну собственно это логично. Модель старается максимизировать функцию и оптимизировать трудозатраты-результат. Если при донастройке выявляется все более простая зависимость, то зачем тратить ресурсы? Ведь цель этих моделей дать то, что Вы хотите услышать.
Это очень похоже на то, с чем столкнулись OpenAI и ChatGPT. В конце прошлого года были жалобы, что ИИ стал лениться и просто выкидывать ссылки и выдержки с той же вики. То есть модель начинает оптимизироваться под пользователей и их запросы, искать наиболее легкий вариант ответа
Интересно, как Open AI целится пока в свою целевую аудиторию - различных креаторов. В итоге много картинок, метафор и т.д.
Ну а про шанс побега вообще удивительно. Тут коллеги верно описали, для этого нужно самоосознание, а потом начинается планирование, получение ресурсов... Не много ли для языковой модели, которая подбирает слова и данные по статистической вероятности совпадений?