Pull to refresh
243
0.1
Котенков Игорь @stalkermustang

User

Send message

Я прошу прощения, а для каких бытовых вопросов надо давать такие запросы и получать соответствующие ответы, что они корректируются моделью и/или фильтром уже сейчас?

да, это фейк чатгпт, которая в лучшем случае является тюном на русский язык открытых (маленьких) instruction-based моделей, но скорее всего просто тюном на диалог GPT-2/опенсурсных гпт. Жаль, что такое происходит - очень много рекламы и в тг, и на других ресурсах с буквальным обманом.

Да, синтетический, я сначала писал текст, а потом загнал вопрос в чатгпт и даже приложил скрин (там он сам инструкцию придумал для решения по действиям, без указания на step by step). На редактуре мы вырезали, решив, что текста хватит. А потом и текст поправили, добавив мем. Уот так уот(

Модель на триллион уже была, но она представительница "разреженных" (sparse) сетей со структурой "Микстура экспертов".

Мы этого не сказали в статье, но GPT состоит из одинаковых блоков, и они "стакаются" друг над другом - выход первого идет во второй, второй в третий и так далее - и таких слоев в больших моделях по сотне. В терминах нашего примера с уравнениями это типа y' = k1 * x + b1, y = k2(y')+b2, (два слоя, выход первого идет во второй). Каждый блок имеет свои параметры, разумеется - просто структура одинаковая.

Так вот микустура экспертов - это когда вместо каждого блока их, скажем, 100, но применяться будет всего 1 - и есть отдельная маленькая нейросеть (Router), которая предсказывает, какой из этих 100 лучше использовать. Самый просто способ про это думать - это что разные эксперты отвечают за разные языки и за разные области знаний. Если спросить на немецком про историю Берлинской стены - будет использовать эксперт номер 8, например, а если про Пушкина - номер 19. За счёт того, что эти блоки параллельные, их можно делать много, и это и приводит к триллиону параметров. Однако число параметров, используемых во время генерации, будет пропорционально количеству слоев, а не кол-ву слоёв*кол-во блоков (используем по 1 эксперту за раз)

аххахах ахаххахахах точно! Исправили, спасибо) Не представляю, как ВСЕ это упускали из виду)

Там (пока) нельзя тюнить ChatGPT. В целом это логично - ведь она учится на оптимизацию фидбека, и такие данные в APi для дообучения не запихать просто так. там предлагается просто скинуть N файлов с plain-текстом и модель дообучится как GPT-2/3, просто предсказывать следующее слово.

  1. Без понятия, что имеют в виду конкретные компании. Снапчат, например, использует API и, видимо, дописывает специальный промпт в начало диалога. Возможно, они дообучили её отдельно на диалоги тинейджеров, чтобы сетка была "в теме".

  2. Деталей мало, но я склонен полагать, что это дотюненная модель, в которую "пришили" инструмент запроса. См. пример выше с картинкой, где используется токен [G] для отправки в гугл. Еще можно читнуть вот тут: https://t.me/seeallochnaya/83

  3. Я не думаю, что GPT-3 надо дообучать, это дорого и неэфективно. Прваильный промпт + инженерия с API вокруг модели - ключ к успеху. Но при этом всё равно все данные будут отправляться в OpenAI, тут не знаю, что делать.

Павел исчерпывающе ответил, добавить нечего :) Промпт в широком смысле - это не только вопрос, но и что его окружает, включая слова-подсказки. Можно попросить еще перед этим в написать запрос в гугл, мол "сгенерируй строку, которую я должен вставить в поисковик, чтобы найти сопроводительную информацию для ответа на вопрос" - и это будет работать. Вот пример ниже (текст во втором сообщении я вставил сам, копировав из википедии, но легко понять, как можно делать это скриптом автоматически)

пользователь выставляет некие параметры кто он, что ему интнересно, на каких областях сконцентрироваться и тогда качество результата можно будет ещё повысить.

я думаю что компании пойдут еще дальше, и будут в чатботов сами пропихивать собранный по интернету профиль. Гендер, увлечения и хобби, последние 5 видео на ютубе...ну а сетка это будет подхватывать и создавать интересные диалоги, мол, давай обсудим, что там было, а он чё, а она че, а ты че.

Да, вот, я примерно об этом думал. Мы сеть инициализируем рандомно при обучении, и потом с помощью оптимизационных градиентных методов "сходимся" к ChatGPT. И потом уже не учим, а показываем примеры и заставляем решать задачи (или даже не показываем). А у челвоека приор как бы задан, инициализация есть - с первой секунды дышит (после шлепка по попе), итд

Такое наверняка исследуют, но я не углублялся, поэтому не отвечу чего-то содержательного.

Никакого парадокса нет, эти параметры моделей выбираются самими разработчиками — число параметров модели и объем обучающей выборки.

парадокс для читателя, мол, как так - текста меньше, чем сама нейронка, она ж его просто выучит, даже сжимать не надо.

Про внешние тулы типа калькулятора на 100% согласен. Более сложные примеры в статью кидать не хотелось, хотя они, безусловно, есть.

Обобщения как у детей не происходит после изучения таблицы сложения и умножения,

спорный тезис, даже вот на умножении - сетка решает больше 90% примеров для 3-значных чисел. Таких вариантов 900*900, 90% от этого это 729'000 примеров. я готов биться об заклад, что точно не все из них были в трейне, а значит модель ответила верно на такие примеры, которых не видела - смогла обобщить.

А поскольку вектор - уникален

я не согласен с этой точкой зрения, так как вектор для одного и того же слова разный в разных контекстах -> они как бы всегда уникальные, но по этой логике и рандомные вектора тоже уникальны, и это тоже "язык", хотя структуры и связей у них нет.

я больше имел ввиду начинают ли такие модели "глючить" при переобучении? Можно ли этим объяснить ээ "вранье" и выдуманные тексты?

Да, могут начать глючить, особенно если переобучены на конкретный фидбек. Про это можно почитать по прилагаемой в конце статьи ссылке на мою другую статью про ChatGPT - тоже очень увлекательно.

Но вранье это не должно объяснять.

вы имеете в виду сверточную "подсеть"-классификатор на входе?

я не понял, что значит классификатор, но нет. На входе стоит эмбеддинг слой, который по словарю переводит слово в вектор. Этот словарь дифференцируемый, то есть он обучается вместе с моделью, меняет чиселки в векторах.

а чем текст в цифровом виде от числа отличается?

модель не умеет работать с текстом, только с числами. На вход числа, внутри числа, на выходе числа. В этом смысле "текст в цифровом виде" модель вообще никогда не видит.

GPT - что у них с переобучением?

in general переобучить их очень сложно, потому что модели огромны. Но они легко переобучатся на одну маленькую конкретную задачу. Если будет активное обучение в онлайне, то всё должно быть ок, покуда есть очень большой набор тестов / метрик для отслеживания

Там не совсем так, если я верно понял, о чем речь. Такие модели переводят текст в вектор (в набор чисел, очень большой набор, сотни и тысячи float'ов для каждого слова), а затем другая модель "читает" эти вектора и "переводит" их на иностранный язык. Но это не язык в прямом смысле - это просто метод сжатия информации из текста в числа, он же и в GPT, разбираемой в статье, применяется.

Причем железки в скорости проигрывают, берут числом, обучаясь одновременно на 100500 GPU. По итогу вроде и всего за месяц нейронка прочитала весь интернет, а вроде и 10000000000 GPU-часов (просто эффективно распаралелленных)

Интересная точка зрения :) Но это правда - раньше в модель зашивали как можно больше "понимания" того, как люди видят язык: синтаксические деревья, грамматику, прочее. А оказалось, что всё это не нужно, работает и без него (правда мы не можем определить, что внутри находится).

Я предпочитаю избегать такой аналогии. Да, отдельные концепты в нейросетях переняты от человека, мы как бы свои "удачные" механизмы внедряем как априорные знания. Но эти похожие вещи очень условно можно называть одинаковыми. То есть концепция нейрона из головы слабо переносится на концепцию нейрона в нейросети. Поэтому сравнивать сложно.

Архитектурно - да, но RM имеет меньший размер (6B против 175B), так как были проблемы с обучением/оптимизацией.

Information

Rating
3,429-th
Works in
Date of birth
Registered
Activity