Как стать автором
Обновить
9
0

Ai, Data-science

Отправить сообщение

AutoGPT страдает от фундаментальной проблемы: каждое действие это некая усредненная с помощью LLM "жвачка" - то есть действие не оптимальное, а то, которое статистически было чаще в датасете (например поиск установленной библиотеки в определенной папке - а если ии там нет не ищет дальше, точнее не может понять что надо искать).

Поэтому у AutoGPT будет происходить так называемое "катастрофическое накопление ошибок" - как ответ на комбинаторную сложность задачи, называют "комбинаторный взрыв" и при этом проблема не может быть решена улучшение языковой модели, даже если GPT-4 взять проблема останется.

Ведь в задаче ан каждом шаге возникает по 5-100 развилок и способов как ее можно сделать, с учетом вашей цели, ресурсов, времени, размеров, сроков и тп свойств объектов которыми он манипулирует. И поскольку такими свойствами GPT модель не может манипулировать с помощью промтов, тк они динамические (возникают в рантайме - то есть заранее нельзя предсказать их, слишком много вариантов) - то и возникает эффект "сваливания" - через 3 шага модель либо впадает в цикл бреда, из которого неизвестно когда будет выход (тк нельзя задать критерий отсечений - ведь что такое "хорошая, популярная новость - это зависит от десятка факторов цели юзера, и их модель не получала") либо просто ломается, не переходит далее по задачам.
Поэтому мы делаем FractalGPT.

Я должен запостить что я все это предсказывал еще в 2019м году в своем докладе на ИИ конфе DataStart, прям на первых минутах доклада: Прозрачный и безопасный искусственный интеллект: подходы к технологическому решению.
И далее весь доклад предлагались решения этой проблемы.
Ну вот этот час и настал.
https://www.youtube.com/watch?v=3WAVQ4ABaPo

Покажу пример нашей QA системы 202го года на скрине, у нее конечно же было большое число проблем: начиная от объясняющей стилистики ответа, и до невозможности сравнивать предметы, также она не могла обработать ложную посылку, неполный вопрос:
(Как работает мозг? - мы как люди предполагаем что речь о мозге человека, а модель находит в Википедии 15 кусочков про мозги животных, про человека там тоже есть, но статья скорее всего будет только одна. Это значит что 90% вероятности, что ответ будет про мозг какого-то животного, при том сборная солянка и рандом. Этот ответ точно будет засчитан человеком как нерелевантный.)

Объясняющая Question-answering система (сентябрь 2021)
Объясняющая Question-answering система (сентябрь 2021)

Ваш вопрос очень обширный, я бы его обобщил.
Во-первых ваш алгоритм далеко не единственный, его можно существенно видоизменять, меняя параметры. Проведение текстов может занять недели 3, достаточно большое время.
К тому же мы еще в сентябре 2021го уже выпускали Объясняющую Question-answering систему, которая отвечала на русском по Википедии.
У нас есть опыт работы с ретривал QA системами, и там несколько проблем:
1. Обучить нужно retriBERT чтобы он доставал нужные сниппеты
2. Обучить также нужно и BART что он умел потом из них составлять ответ.
3. Повторять это нужно каждый раз, когда образ ответа (стилистика, его длина и тп) меняется в зависимости от бизнес задачи.
Но проблема же также и в том, что можно модели заменить - например взять T5 и прочие, вдруг они будут лучше. Мы плавно пришли к достаточно большому рисечу, который делают топ компании.

Во-вторых это вопрос о бенчмарках: то есть в целом конечно нужно сравнивать эффективность методов, и эта работа в прогрессе сейчас. Но тут в нашем примере некорректно сравнивать ретривал систему и фрактальную тк они решают разные задачи: по сути более правильно сравнивать фрактальную систему в завершенном виде - когда по ней будет сделана генерация с помощью LLM и далее приведена статистика, что в таком сеттинге галлюцинаций в итоге меньше, чем в LLM которая генерировала по векторной базе.
В итоге вопрос сводится к продолжению разработки системы, тк мы рассматриваем по сути компонент пока что, а не полную систему.
Это мы опишем позже.

В-третьих, я соглашусь, что нужны численные бенчмарки, также они в процессе.

Эту статью не видел, подход интересный, веет Канеманом, посмотрю и позже отпишусь.
Пока не посмотрел могу сразу сказать, что ассоциации тоже можно графами промоделировать, например нечто похожее делается в Conceptnet - системе онтологий с разными типами связей.

Ваш вопрос про квантование?
Вот есть статья, тут еще и другие методы описаны: https://habr.com/ru/companies/doubletapp/articles/722798/

Вообще используя квантование вы можете запустить аналог ChatGPT у себя на ПК и уже вышло несколько разных репозиториев и моделей как это сделать. Но как раз такие модели все же хуже оригинальных.

  1. Да, это тема очень обширная и есть как минимум 2 подхода:
    а) использовать GNN (графовые нейросети) - тут в видео показан граф со ребрами-смысловыми связями и отношениями
    https://www.youtube.com/watch?v=oifFhoqmWso
    б) использовать CoT (chain of thought prompting)
    - этот подход наиболее известный и именно его с помощью промт-инжиниринга все и хотят приспособить к решению сложных задач, изобретая все более сложные промты, но т.к. он тоже авторегрессионный модель просто не способна понять того, что от нее требуют: изучить структуру в данных, вместо того, чтобы изучить более простые статистики слов
    https://ai.googleblog.com/2022/05/language-models-perform-reasoning-via.html

    третий является неким расширением CoT: MM-REACT выделяет специализированных экспертов по зрению с ChatGPT для решения сложных задач визуального понимания с помощью мультимодальных рассуждений и действий.
    в) https://multimodal-react.github.io/

На секции NLP RnD у меня был доклад про работу нашей команды - мы делаем открытую библиотеку для интерпретируемого ИИ - называется ExplainitAll.
Вот кратко описание:
Библиотека ExplainitAll предназначена для интерпретации выходов нейросетей трансформер. Основным преимуществом реализуемого в библиотеке подхода является то, что интерпретация будет работать и для сетей-эмбеддеров, и для генеративных задач в сеттинге QA (Вопросно-ответных систем). Результат работы может быть сгруппирован и обобщен на семантические кластеры. Также разработчики и пользователи ExplainitAll смогут использовать готовые метрики надежности ответов трансформеров, а также создавать свои собственные, с визуализацией внимания.

После доклада подходили люди и говорили "о, круто, что такое делаете".

Вообще, для меня конфа началась 5го, на сессии нетворкинга с распитием вина, было прям много интересных людей, представители венчура и даже мне удалось запитчить наш новый проект FractalGPT Крайнову из Яндекса.
А вот из докладов в главном зале для меня топ по неожиданности стили доклады
1. Ветрова про то, ка кони боролись с зарубежными университетами по подаче прорыв на ИИ конфу и как их сначала не взяли, а потом взяли.
2. Алексея Шпильмана из Газпром Нефти (кстати, удивило, а причем такая компания к AGI) про вехи в развитии Сильного ИИ.

По практической полезности хорошими сервисы, которые можно уже использовать и они дают хороший буст для инференса ваших моделей: доклады про Scaletorch - Make your AI compute 10x-1000x faster и про Petals: Collaborative Inference and Fine-tuning of Large Models

Однозначно так. Мы в чате AGIRussia обсуждали ChatGPT и все пришли к выводу что не только он не заменит разработчиков, но и во многих фактологических задачах не поможет. Просто потому что архитектура GPT не работает с концептами, она работает со статистиками токенов - поэтому простые кусочки кода работают потому, что они типичны и похожи на куски из StackOverflow, но тк нет понимания сущностей и нет глобальной памяти, а локальная короткая то комбы из 2-3 классов с логикой между ними не будут работать.

Кстати, ведь сетку Galactica отключили как раз поэтому - псевдонаучный бред генерила, а это опасно и засоряет интернет.

К слову, мы сделали ИИ чатбота психолога - и критика его очень похожа на критику ChatGPT - критичная, чувствительная к этике область, но там хотя бы можно обходиться общими советами, не нужна мощная фактология, не нужно вычислений, математики и тп. А вот описательные вопросы, объясняющие хорошо отрабатывает, и даже не хуже чем ChatGPT, хотя мы выпустили бота раньше чем OpenAi
https://neurohive.io/ru/gotovye-prilozhenija/sabina-ai-chatbot/

Круто, посмотрим обязательно модель. Нас конечно интересует диалоговый сеттинг: делаем чатбота, разговаривающего на психологические темы, и там конечно же проявляются все проблемы архитектуры GPT, фактология и противоречивость информации в репликах.

Тестировали ли вы mGPT в тюнинге для чатботов, какой эффект мультиязычность оказывает на русскоязычного чатбота по типу Джой - стоит ли взять mGPT вместо ruGPT3 для русскоязычного бота?
А вот для задачи контролируемой генерации кажется стоит попробовать модель - учим ruGPT3 генерации текстов и там есть успех, но бывает такое, что некоторые ключевые слова заменяются на близкие им (видимо в эмбеддингах), а этого хотелось бы избежать. Тогда вопрос генерации текста с конкретными брендами в нем упросится - они не будут подменяться конкурирующими брендами из этой же категории)

https://stanfordnlp.github.io/chirpycardinal/live_demo/
Вот демка бота Chirpy cardinal от Стэнфорда, ответы вроде бы логичные, но лишняя информация, ан мой вопрос не ответил, переводит тему. Она рад слышать, что обеда у меня не было. И это 2е место в конкурсе от Амазон

Вообще 3-5 реплик в среднем, это то, что заметно людям. Мы над этой фичей не работали, так что она такая же, как и в других ботах на ruGPT3.
Вопрос звучит коротко, но ответ на него может быть сложный, если его переформулировать так: а есть ли у бота человеческая память?


И вот тут оказывается, что как таковой памяти ассоциативной, памяти фактов, их важности, краткосрочных фактов для данного разговора и долгосрочных - у него нет, просто потому, что это нет архитектурно в трансформерах. И поэтому, если спрашивать бота о фактах, которые он только что сказал, о принадлежности объектов и тп - вряд ли он будет отвечать хорошо.
Такую память нужно делать. как делать - большой разговор, можно делать экстракторы фактов и сохранять их в базу - простой инженерный путь. У нас также есть идея делать память на NTM, но об этом как-нибудь в следующий раз.

Это наиболее частый вопрос от юзеров: они разговаривают с ботом не на те темы, на которые он обучен или тестируют не тот сеттинг downstream task - поэтому ответы будут не совсем теми, какие ожидаете.
В данном случае, чтобы получить хороший результат надо:
1. Дать боту больше контекста житейского, разговор должен быть преимущественно на женские темы отношений, психологии, секса.
2. Дать боту вопросы с модальностью не вопросно-ответной системы.
Это вторая ошибка юзеров - то, что бот не является QA системой, то есть не обучался отвечать на знания о мире, фактах и тп. У нас есть QA система, работающая в объясняющем стиле, но это уже тема другого поста. Поэтому и ответ про небо не научный, а скажем так, мнение бота где он живет.
Также у этой демки нет личности, а в коммерческом боте она есть.

Не совсем понял вопрос

Круть.
А какие минимальные требования к инференсу моделей 1,3 и 13млрд по мощности GPU, объему видеопамяти, оперативной памяти?
Также интересует вопрос нагрузочного тестирования: сколько одновременных генераций могут делать модели на одной ГПУ так, чтобы генерация не замедлялась и с какого момента будет падение процесса (где будет узкое место).
Для диалогов нужен другой encoder — polyencoder, тут архитектура не подходит
Погуглите — есть уже задача распознавания фейков и даже у нас в РФ выделено финансирование на этот проект.
Верно автор говорит — это война Всепробивающего ядра и Непробиваемой брони.
То же самое касается и adversarial attacs на нейросети, хотя мое мнение, что скоро эта проблема будет решена.
Да, проблема с копированием кусков текста и заменой там характеристических слов она есть — («единорог» в примерах со скринов это и есть такое слово, подставленное во вполне логичный новостной сюжет-обзор, который во многом копирует типовые обороты).

Мы тоже выпускали своего чатбота Ньютона на трансформере кастомной архитектуры с 3млрд параметров(правда не хайповали пока тк там много еще задач) — он затюнен именно на диалогах из интернета и знаниях из википедии, миллионы диалогов. Генерация в нем очень хорошая, логичная, эмпатичная и бот проактивный, одна из фишек это помимо генерации делать refine полученного куска текста, а еще мы используем другой encoder, который внимание чуть иначе, более эффективно применяет.
Так вот такая модель может хоститься на обычной 1080ti в облаке и ведет очень разнообразный разговор и стоит это все намного дешевле, чем gpt-3. Правда и артефакты есть — тк модель на английском, стиль разговора у нее более западный и жаргонизмы плохо понимает.
Так что огроменный датасет ruGPT3 это круто — но если кто статью читал, там видно, что меньший размер моделей начинает уступать текущим решениям по качеству решения задач NLU. И лучше брать архитектуру под задачу
Я так понял, что пока не ясны:
1) критерии отбора конкретных компаний и проектов, которые получат финансирование,
2) и, как следствие, пока эти критерии разработает комиссия пройдет еще 1 год?
Ну короче можно пока не думать об этом или как, у кого какие идеи?
Согласен с karay по проблеме интепретируемости. Кстати, уже есть работы, в которых объяснено, как нейросеть принимает решение, там разрезка по слоям сетки и даже вытягиваются фичи, что вот ухо такой формы значит это кот — это опять же классификация, статья Deepmind.
Так что ребят, забываем, что нейросети черный ящик, уже нет. А пока и Семихатов в программе Наука на федеральном канале все еще продолжает транслировать устаревшую инфу.
Что касается объяснения самой сетью: тут нужна другая сеть, обученная понимать причину следствие. Пока что все эти фишки с якобы ответами на вопросы что Земля это 3я планета не более чем статистически самый частый ответ. И никакого осознания это информации у нейросети нет.
По безопасности мира: недавно выступал на конфе Datastart с докладом о прозрачном и безопасном ИИ, рассказывал, как важно его контролировать с помощью блокчейна в том числе, чтобы он не вырвался, показывал кейсы и тп. Пока общественный дискурс болоболит о философских моментах, а не о том, как технически решать проблему, тк полная модель GPT-2 появится кустарно все равно и это вопрос времени

Информация

В рейтинге
Не участвует
Откуда
Россия
Зарегистрирован
Активность