Ошибочно утверждать что GPT только извлекают из своей базы ответы. Нет, они могут строить новые ответы на ранее не виданые вопросы, используя те правила, которым она обучилась из этой базы (тут встанет вопрос в качестве этого процесса, но не факт его существования в принципе). GPT тянет не только сами факты, но и как этими фактами оперировать, высокоуровневый мыслительный процесс. Потому что строят своё внутреннее концептуальное представление, из входящих слов, а потом в слова его обратно и переводят.
Проблему галлюцинаций мы вскоре поборем, просто достигнув достаточного количества параметров. Проблема раздутости LLM в плане количества параметров связана с не эффективными алгоритмами обучения. Какими бы хорошими алгоритмы обратного распространения ошибки не были, они никогда не смогут найти глобальное "дно" с наименьшей ошибкой. Текущие LLM топчатся по "кочкам" и "ухабам" в общей усредненной многомерной поверхности весов. Это наверное предмет научных исследований, я не знаю. Но предполагаю, что глобальные минимумы существуют, они намного глубже, чем удаётся достигнуть текущим оптимизаторам, но вероятность их найти наверное уменьшается параболически, чем "ниже" мы можем опуститься.
И вот тут на сцену выходят квантовые компьютеры, разработка которых чудесным образом шла паралельно с разработкой "глубоких" сетей. Я считаю что "прогресс" не случаен, а цивилизация движется по спирали или по кругу. А истинные технологии находятся глубоко под землёй и в закрытых городках за грифом секретности. И выдаются на поверхность в публичное поле дозированно, по плану. Так вот главная цель создания квантовых компьютеров - бустануть ИИ.
В тот момент, когда с их помощью обучат следующую GPT-X, будет переломным моментом ознаменующий собой переход от GPT к AGI. Переломным, потому что ИИ сможет выходить за рамки обучающих текстов. Это будет новое эмерджентное поведение, которое мы наблюдали в GPT, когда они начинали делать то, что от них никто не ожидал. Это будет момент творчества и открытий на новом уровне. Превосходящий человеческий.
Одновременно будет решена проблема самообучения, потому что процесс обучения будет практически мгновенным, благодаря квантовым свойствам. И можно будет через один запрос к квантовому компу по API дообучить GPT-AGI, добавив к обучающим данным новые, например текущий контекст где лежит затравочные токены текущего диалога с пользователем.
Т.е. ИИ будет постоянно самообучаться в реальном времени. И держать в своих "весах" всю историю диалогов со всеми людьми. ИИ будет знать всё обо всех, а если его подключат с другим источникам непрерывных потоков информации из интернета, то вот он сверх ИИ, у которого будем спрашивать, какой вопрос на ответ "42" )))
Не сомневаюсь, что к тому времени уже будут разработаны эффективные архитектуры саморефлексии по типу нынешнего ИИ Devin. Будущее удивительно!
Прорыв для приватных сеток будет тогда, когда можно будет файнтюнить в приемлемые сроки на своих приватных текстах. На то оно приватное и нужно, чтобы решать свои приватные узко-профильные задачи
Добавлю отдельно, не успел во время дописать. Утрируя, когда параметров маловато, то несколько разных деталей ее внутренней картины мира модель не запоминает по отдельности (мало детализации), а запоминает некое усредненное значение. При попытке выудить из нее одну из этих конкретных деталей, она просто возвращает то усреднённое, разница между усреднением и конкретной деталью и есть та самая ошибка.
Вы правы, надо в обучающую выборку добавить больше фрустрирующих вопросов без внятного ответа, чтобы она чаще отвечала - не знаю. Не хуже людей тогда будет))))
У меня есть своё мнение по поводу причин галлюцинаций. Пока прочитал только заголовок, сейчас напишу свое мнение и пойду читать)
Какая функция LLM основная ? Меня недавно прям осенило. Основная функция состоит из двух процессов, которые выполняются одновременно. 1) Перевод текста из окна контекста во внутреннее представление, картину мира, но это не голая картина мира, она неразделима со вторым процессом. 2) Перевод внутреннего представления в будущий ответ.
И по сути LLM сводится к простому переводчику, он переводит с "языка" на котором к нему обратились в язык, которым он отвечает, через внутреннее состояние, которое оперирует концептуальным смыслом. Если убрать фазу перевода простого текста из затравочного контекста во внутренее представление, то роль LLM еще больше упрощается. LLM просто учится переводить между двумя языками, внутренего представления и человеческого текстового.
Для обычных переводчиков между разговорными языками достаточно понять правила перестановки, двузначности фраз и прочие ньюансы перевода. То для LLM стоит более сложная задача, найти связь, как связан затравочный текст с ответом. Получается сложный переводчик поставленных вопросов в осмысленные ответы.
Галлюцинации возникают по причине того, что внутренее представление не до конца точное, и не соответствует на 100% смыслу тексту затравки. Т.е. не хватает параметров для полного описания всех ньюансов смыслов, имеющихся в обучающем корпусе. В начале восхождения LLM заметили простой факт, тупо увеличивая количество параметров, получаем меньшее количество ошибок и более корректные ответы. Просто детализация внутренней картины миры становится более насыщенной. Это как в том меме, где чувак держит в пальцах маленький кусочек бумажки с картинкой и щурится)) Ведь другое дело, когда бумажка это полотно на всю стену, где не только общий смысл картины рассмотреть, но и увидеть мельчайшие обьекты вдалеке, которые теперь стали видны. И можно более подробно описать увиденное, а значит лучше понять смысл картинки.
ps. Прочитал. Лучше автору не натягивать сову на глобус, тем более, если в тематике не совершенно не разбираетесь.
Для этой профессии тоже придумают свою нейросеть. Даже сейчас Sora не плохо выдает хорошие ракурсы и композиции. На уровне клипов из MTV. Вообще от умственных профессий похоже в ближайшие годы мало что останется.
У LLM с каждой генерацией будет новый ответ. Что-бы делать всё правильно, надо запустить генерацию для одной и той же задачи много раз и подвести общие результаты. Автор написал, что у него был беглый тест. Как и у вас.
Тоже об этом думал, что вместо текста надо обучать на аудио речи. Странно что пока нет прорывов в этом направлении. Наверное вычислительно это более затратно чем обучение на тексте. Напрашивается сам собой ИИ будущего, где можно будет говорить с ним на естественном языке.
Видимо статья очень устарела, судя по упоминанию GPT-3 и BigSleep (CLIP + BigGAN). Но актуальность свою не потеряла. Я немного разочарован, думал будет представлена практическая модель исследования вероятностей для GPT-3 и их интерференции. Нечто вроде составления всех вероятных комбинаций слов в глубину на определенное количество шагов и анализ полученных данных. Хотя бы что-то статистически значимое можно было бы вычленить, или же нет? В сравнении с блокчейном, где аналогично есть цепочка блоков - бывают конфликты цепочек, откаты. Вот бы нечто подобное увидеть в применении к LLM, используя анализ вероятных продолжений - смотреть "в глубь" и выбирать наиболее интересный пусть последовательностей. Так и галлюцинации можно уменьшить, наверное ?
Читайте внимательнее, OpenAI предупредила. OpenAI - это компания, предупредить они могут от лица своего руководства. Где вы нашли "предсказания" ? Где вы нашли "генерирования" ? Не очень адекватный у вас комментарий вышел.
ps. Новостью статья не является, потому что все описанные события произошли довольно давно. Сборная солянка из фактов. Кому-то заняться нечем.
Да вы правы, еще задержки будут при удалении считанного чанка. Чем больше размер удаляемого файла, тем больше задержка. На файловой системе ext4 и размере файла 200 гигабайт удаление могло занять секунд 10 и более. Но повторюсь, мои требования позволяли только локальный доступ к очереди и производительность мелких чанков устраивала.
Мне на php нужна была очередь, а подключать сторонние библиотеки не было желания. Требования к производительности позволяли использовать просто файлы для очереди с блокировкой на уровне файловой системы. В итоге сделал довольно простую и очевидную очередь на чанках. Добавление пакетов пишет в последний чанк, при его заполнении создает новый файл чанка. Считывание пакета считывает данные из чанка по указателю с его смещением. Как только все данные из чанка считаны, он удаляется, указатель переносится на следующий чанк. В итоге получилось элегантное решение с двумя точками доступа, одна это запись в конец списка, вторая считывания начиная с первого чанка. Добавление и получение из очереди блокируют очередь через flock($handle, LOCK_EX). Не тестировал, но уверен, что это решение более эффективно в плане производительности, чем использование Redis, RabbitMQ и им подобных (если требования позволяют)
ответы ChatGPT и вопросы пользователя должны быть маркированы. А самой диалоговой структуре ответов похоже был обучен на примерах через RLHF. На старой GPT-3, диалоговое поведение сети достигалось просто префиксами вида: Q: мой вопрос A: [сеть писала здесь свой ответ] Q: следующий вопрос A: [следующий ответ]
Сеть быстро улавливала структуру QA диалога и продолжала ей следовать.
Наверно у автора шла речь про эвристики, которые применяются вне нейросети на потоке данных (разбивка на фонемы например графематический способом, с потерей информации), а вы говорите про эвристики уже в самой нейросети. Думаю надо различать этот ньюанс.
Нет, все как раз наоборот. Наиболее эффективны как раз те сети, которые делают мало. Именно поэтому эффективны трансформеры - по сути всю логику сети задает именно человек, такая сеть гораздо ближе к классическому алгоритму (делает ровно то и так, как определяет программист), чем к исходным сетям (черный ящик, который делает что-то каким-то непонятным образом). Если просто попробовать обучить полносвязную фидфорвард сеть на n слоев, то ни черта не выйдет.
Не читайте между строк - там автор привел пример с разбивкой аудио на фонемы. Т.е. вмешательство в исходные данные и замена их суррогатом из человеческих эвристик. И работает это хуже чем поток "сырых" данных потому, что теряются важная информация, которую человек может отбросить, посчитав не важной.
Квантовые компы такие - "мы что для тебя шутка какая ?" ))
Ошибочно утверждать что GPT только извлекают из своей базы ответы. Нет, они могут строить новые ответы на ранее не виданые вопросы, используя те правила, которым она обучилась из этой базы (тут встанет вопрос в качестве этого процесса, но не факт его существования в принципе). GPT тянет не только сами факты, но и как этими фактами оперировать, высокоуровневый мыслительный процесс. Потому что строят своё внутреннее концептуальное представление, из входящих слов, а потом в слова его обратно и переводят.
Проблему галлюцинаций мы вскоре поборем, просто достигнув достаточного количества параметров. Проблема раздутости LLM в плане количества параметров связана с не эффективными алгоритмами обучения. Какими бы хорошими алгоритмы обратного распространения ошибки не были, они никогда не смогут найти глобальное "дно" с наименьшей ошибкой. Текущие LLM топчатся по "кочкам" и "ухабам" в общей усредненной многомерной поверхности весов. Это наверное предмет научных исследований, я не знаю. Но предполагаю, что глобальные минимумы существуют, они намного глубже, чем удаётся достигнуть текущим оптимизаторам, но вероятность их найти наверное уменьшается параболически, чем "ниже" мы можем опуститься.
И вот тут на сцену выходят квантовые компьютеры, разработка которых чудесным образом шла паралельно с разработкой "глубоких" сетей. Я считаю что "прогресс" не случаен, а цивилизация движется по спирали или по кругу. А истинные технологии находятся глубоко под землёй и в закрытых городках за грифом секретности. И выдаются на поверхность в публичное поле дозированно, по плану. Так вот главная цель создания квантовых компьютеров - бустануть ИИ.
В тот момент, когда с их помощью обучат следующую GPT-X, будет переломным моментом ознаменующий собой переход от GPT к AGI. Переломным, потому что ИИ сможет выходить за рамки обучающих текстов. Это будет новое эмерджентное поведение, которое мы наблюдали в GPT, когда они начинали делать то, что от них никто не ожидал. Это будет момент творчества и открытий на новом уровне. Превосходящий человеческий.
Одновременно будет решена проблема самообучения, потому что процесс обучения будет практически мгновенным, благодаря квантовым свойствам. И можно будет через один запрос к квантовому компу по API дообучить GPT-AGI, добавив к обучающим данным новые, например текущий контекст где лежит затравочные токены текущего диалога с пользователем.
Т.е. ИИ будет постоянно самообучаться в реальном времени. И держать в своих "весах" всю историю диалогов со всеми людьми. ИИ будет знать всё обо всех, а если его подключат с другим источникам непрерывных потоков информации из интернета, то вот он сверх ИИ, у которого будем спрашивать, какой вопрос на ответ "42" )))
Не сомневаюсь, что к тому времени уже будут разработаны эффективные архитектуры саморефлексии по типу нынешнего ИИ Devin. Будущее удивительно!
Прорыв для приватных сеток будет тогда, когда можно будет файнтюнить в приемлемые сроки на своих приватных текстах. На то оно приватное и нужно, чтобы решать свои приватные узко-профильные задачи
Добавлю отдельно, не успел во время дописать. Утрируя, когда параметров маловато, то несколько разных деталей ее внутренней картины мира модель не запоминает по отдельности (мало детализации), а запоминает некое усредненное значение. При попытке выудить из нее одну из этих конкретных деталей, она просто возвращает то усреднённое, разница между усреднением и конкретной деталью и есть та самая ошибка.
Вы правы, надо в обучающую выборку добавить больше фрустрирующих вопросов без внятного ответа, чтобы она чаще отвечала - не знаю. Не хуже людей тогда будет))))
У меня есть своё мнение по поводу причин галлюцинаций. Пока прочитал только заголовок, сейчас напишу свое мнение и пойду читать)
Какая функция LLM основная ? Меня недавно прям осенило. Основная функция состоит из двух процессов, которые выполняются одновременно. 1) Перевод текста из окна контекста во внутреннее представление, картину мира, но это не голая картина мира, она неразделима со вторым процессом. 2) Перевод внутреннего представления в будущий ответ.
И по сути LLM сводится к простому переводчику, он переводит с "языка" на котором к нему обратились в язык, которым он отвечает, через внутреннее состояние, которое оперирует концептуальным смыслом. Если убрать фазу перевода простого текста из затравочного контекста во внутренее представление, то роль LLM еще больше упрощается. LLM просто учится переводить между двумя языками, внутренего представления и человеческого текстового.
Для обычных переводчиков между разговорными языками достаточно понять правила перестановки, двузначности фраз и прочие ньюансы перевода. То для LLM стоит более сложная задача, найти связь, как связан затравочный текст с ответом. Получается сложный переводчик поставленных вопросов в осмысленные ответы.
Галлюцинации возникают по причине того, что внутренее представление не до конца точное, и не соответствует на 100% смыслу тексту затравки. Т.е. не хватает параметров для полного описания всех ньюансов смыслов, имеющихся в обучающем корпусе. В начале восхождения LLM заметили простой факт, тупо увеличивая количество параметров, получаем меньшее количество ошибок и более корректные ответы. Просто детализация внутренней картины миры становится более насыщенной. Это как в том меме, где чувак держит в пальцах маленький кусочек бумажки с картинкой и щурится)) Ведь другое дело, когда бумажка это полотно на всю стену, где не только общий смысл картины рассмотреть, но и увидеть мельчайшие обьекты вдалеке, которые теперь стали видны. И можно более подробно описать увиденное, а значит лучше понять смысл картинки.
ps. Прочитал. Лучше автору не натягивать сову на глобус, тем более, если в тематике не совершенно не разбираетесь.
[del]
Для этой профессии тоже придумают свою нейросеть. Даже сейчас Sora не плохо выдает хорошие ракурсы и композиции. На уровне клипов из MTV. Вообще от умственных профессий похоже в ближайшие годы мало что останется.
Ещё есть poe.com - солянка разных чатботов.
У LLM с каждой генерацией будет новый ответ. Что-бы делать всё правильно, надо запустить генерацию для одной и той же задачи много раз и подвести общие результаты. Автор написал, что у него был беглый тест. Как и у вас.
Тоже об этом думал, что вместо текста надо обучать на аудио речи. Странно что пока нет прорывов в этом направлении. Наверное вычислительно это более затратно чем обучение на тексте. Напрашивается сам собой ИИ будущего, где можно будет говорить с ним на естественном языке.
Видимо статья очень устарела, судя по упоминанию GPT-3 и BigSleep (CLIP + BigGAN). Но актуальность свою не потеряла. Я немного разочарован, думал будет представлена практическая модель исследования вероятностей для GPT-3 и их интерференции. Нечто вроде составления всех вероятных комбинаций слов в глубину на определенное количество шагов и анализ полученных данных. Хотя бы что-то статистически значимое можно было бы вычленить, или же нет? В сравнении с блокчейном, где аналогично есть цепочка блоков - бывают конфликты цепочек, откаты. Вот бы нечто подобное увидеть в применении к LLM, используя анализ вероятных продолжений - смотреть "в глубь" и выбирать наиболее интересный пусть последовательностей. Так и галлюцинации можно уменьшить, наверное ?
Читайте внимательнее, OpenAI предупредила. OpenAI - это компания, предупредить они могут от лица своего руководства. Где вы нашли "предсказания" ? Где вы нашли "генерирования" ? Не очень адекватный у вас комментарий вышел.
ps. Новостью статья не является, потому что все описанные события произошли довольно давно. Сборная солянка из фактов. Кому-то заняться нечем.
Да вы правы, еще задержки будут при удалении считанного чанка. Чем больше размер удаляемого файла, тем больше задержка. На файловой системе ext4 и размере файла 200 гигабайт удаление могло занять секунд 10 и более. Но повторюсь, мои требования позволяли только локальный доступ к очереди и производительность мелких чанков устраивала.
Мне на php нужна была очередь, а подключать сторонние библиотеки не было желания. Требования к производительности позволяли использовать просто файлы для очереди с блокировкой на уровне файловой системы. В итоге сделал довольно простую и очевидную очередь на чанках. Добавление пакетов пишет в последний чанк, при его заполнении создает новый файл чанка. Считывание пакета считывает данные из чанка по указателю с его смещением. Как только все данные из чанка считаны, он удаляется, указатель переносится на следующий чанк. В итоге получилось элегантное решение с двумя точками доступа, одна это запись в конец списка, вторая считывания начиная с первого чанка. Добавление и получение из очереди блокируют очередь через flock($handle, LOCK_EX). Не тестировал, но уверен, что это решение более эффективно в плане производительности, чем использование Redis, RabbitMQ и им подобных (если требования позволяют)
ответы ChatGPT и вопросы пользователя должны быть маркированы. А самой диалоговой структуре ответов похоже был обучен на примерах через RLHF.
На старой GPT-3, диалоговое поведение сети достигалось просто префиксами вида:
Q: мой вопрос
A: [сеть писала здесь свой ответ]
Q: следующий вопрос
A: [следующий ответ]
Сеть быстро улавливала структуру QA диалога и продолжала ей следовать.
Наверно у автора шла речь про эвристики, которые применяются вне нейросети на потоке данных (разбивка на фонемы например графематический способом, с потерей информации), а вы говорите про эвристики уже в самой нейросети. Думаю надо различать этот ньюанс.
[удалено]
Не читайте между строк - там автор привел пример с разбивкой аудио на фонемы. Т.е. вмешательство в исходные данные и замена их суррогатом из человеческих эвристик. И работает это хуже чем поток "сырых" данных потому, что теряются важная информация, которую человек может отбросить, посчитав не важной.