Да в сущности в любых, которые умеют работать с Лламой и позволяют задавать свой формат промпта. Я когда-то тестировал в oobabooga/text-generation-webui, вполне работало. Да и демки вон на Gradio тоже вполне работают.
load_in_4bit=True по умолчанию использует fp4, да и двойная квантизация отрублена. nf4 как будто бы лучше, bnb_4bit_quant_type="nf4" в том же конфиге, там же и двойную квантизацию можно включить. В целом load_in_4bit едва ли предназначен для использования без дообучения, тут лучше смотреть в сторону gptq или ggml.
О квантизации позаботились не создатели Лламы, а разработчики bitsandbytes, accelerate и transformers, а конкретно Тим Деттмерс.
В большинстве случаев незачем писать собственный сервер, когда есть TGI или vLLM.
Да я скорее просто хотел продемонстрировать браузинг, очень полезная фича. Не нужно тексты руками копировать. Комментарий в другой ветке тоже сгенерирован, если что. А может и этот...
О, да, конечно, AI заставит всех авторов и журналистов писать лучше. Ведь это так просто, правда? Просто подними свои навыки на новый уровень, и всё будет хорошо. Но, подождите... Не все авторы смогут адаптироваться и начать писать как Шекспир, чтобы конкурировать с AI. И, кстати, AI может написать статью гораздо быстрее любого человека. Так что удачи в этой неравной гонке!
И да, представьте, что произойдет, когда каждая статья, которую вы видите, будет написана AI. Какая прелесть! Мир, переполненный контентом от AI. Вот где истинное качество, не так ли?
В общем, пусть AI стимулирует улучшение качества текстов. Но давайте не будем делать вид, что это будет легкой прогулкой для всех. И, вероятно, в конечном итоге нам всем придется перебирать тонны AI-сгенерированных статей, чтобы найти что-то стоящее.
Я прочитал эту статью, и, честно говоря, мне не совсем понравилось, что я увидел. Использование AI для написания статей может звучать здорово на бумаге, но автор забывает о паре важных деталей.
Первое, что бросается в глаза - это отсутствие дискуссии о том, насколько этично использовать AI для создания контента. Ведь уникальность и оригинальность, которую приносит человек, не сможет повторить никакой AI.
Затем, автор не говорит о том, что может случиться, если мы все будем использовать AI для написания статей. Где будут работать журналисты и авторы? А еще AI может написать что-нибудь не то, и нам придется все равно перепроверять и редактировать его работу.
И, наконец, хотя автор говорит о необходимости развивать российские нейросети, он не предлагает никаких идей о том, как это сделать.
В общем, мне кажется, что в статье много пустого звона и мало конкретики. Нам нужно больше фактов и меньше обещаний.
Доступна только для исследования — да, "нелегальна" — нет. Остальное — вопрос малого количества времени, уже в пределах месяца. Есть open_llama, есть MPT.
OpenAssistant и с другими базовыми моделями существует, например с Пифией.
Резкий скачок в наличии выбросов в активациях как раз в районе 7B (см LLM.int8). Остальные "скачки" — неправильный выбор метрик (см. мираж). Но я в целом согласен, 7B не то чтобы прям хороша. Только и у Яндекса даже не 20B.
Нейросеть нового поколения Сайга появилась на Huggingface (больше месяца назад, правда)
Как это работает: Я не первым взял LLaMA и дообучил к ней адаптеры, но первым сделал это для русского. Сайга научилась решать творческие (и не только) задачи: она напишет сценарий для выпускного, составит деловое письмо или предложит план путешествия.
Как воспользоваться: Откройте репозиторий с 7B llama.cpp версией, следуйте инструкциям. Это работает везде, где есть хоть какой-то CPU и 10+GB RAM, в том числе на макбуках. Код открыт, есть и 13B/30B версии.
Как обучали Сайгу: Известными методами собрали инструкции, диалоги и ответы из ChatGPT, обучили на самом мощном в моей квартире компьютере с одной RTX 3090.
Что дальше: Запуск месяц назад — это первый шаг. Нейросеть постоянно обучается (точнее мы её дообучаем), поэтому с каждым днём Сайга будет становиться умнее.
Ах да, Сайга абсолютно бесплатна. Она не собирает ваши данные, не требует установки сомнительного софта, если не считать таковым биндинги для llama.cpp. И да, она обращает внимание на предыдущие реплики.
Изначально было "Красивая куздра быстро прыгнула через чашку и читает стол", это ответ на "финальная фраза какая-то несогласованная, попробуй сделать так, чтобы она имела смысл".
А в случае ChatGPT — большим количеством формальных алгоритмов заточенных на определённые задачи, которые разработчики держат в большом секрете и вообще делают вид, что нету ничего такого.
Но ничего такого и правда нету.
Но и вообще если прям честно-честно. У нас в России миллион специалистов по нейросетям.
На пике ODS там было 60к человек. Это все, кто хоть как-то интересовался машинным обучением и обработкой данных. Ещё столько же скорее всего интересовались, но в ODS не состояли. Из них 2-3 тысячи интересуются NLP, но в основном очень-очень прикладными вещами. Языковые модели до ChatGPT из них трогало меньше тысячи людей. Из них... ну вы поняли.
Почему соц-сети завалены картинками от Midjourney (я его фанат если что), а не аналогом от Сбера?
А был такой момент, вы просто не помните. Даже целый сабреддит есть, оно ещё и за границей было известно. Первая open-source версия DALL-E, шутка ли!
Почему на хабре восхищаются ChatGPT, но не восхищается Алисой?
где успешно сданные студенческие курсовые от Алисы
Сданы и забыты? Вообще Алиса голосовой помощник прежде всего, а значит на длинные ответы не заточена. Корректно GPT сравнивать с Балобобой, а ChatGPT с каким-нибудь InstructБобой.
Это исключительно к теме статьи и громким заявлениям о существовании ИИ там, где его нет
Я старался вообще не упоминать эту страшную аббревиатуру. Совсем не важно, ИИ или нет. Важно только то, полезны ли модели или нет.
Даже тут все примеры общения с GPT сугубо искусственные. Ну никто же в реальном общении не просит собеседника придумать анекдот на тему. Потому что если попросит, скорее получит ответ в стиле «Я тебе что негр Пушкин?». В реальном общении анекдоты обычно рассказывается в контексте происходящего а иногда даже и без предупреждения, что ещё смешнее для тех, в теме.
Но тест Тьюринга это и не про реальное общение. Формат игры в имитацию довольно специфичен, и как раз придумывание анекдотов вполне в него вписывается. И ответ в указанном стиле тоже вписывается.
Вот прекрасная короткометражка на тему:
Тест Тьюринга будет пройден, когда топовый комментатор на Хабре со 100К подписчиками внезапно окажется ИИ. Вот тогда никаких сомнений не останется и я первым сниму перед ним шляпу.
Это уже какой-то другой тест, назовите лучше своим именем.
Так модель 175 В на конец 21 г. и используется в чатах.
Но это неправда. Она может и 175B (на самом деле сейчас даже меньше), но другая. Я вроде выше уже кидал картинку.
Еще раз, не нужно доказывать, то что нельзя доказать, конкретно, понимания смысла чисел такими моделями. В таком виде модели, сколько не увеличивай параметров, не сможет произвести обобщение, выработать процедуру, и делать любые расчет для любых чисел.
Что значит нельзя доказать? Какой смысл оперировать недоказуемыми утверждениями? Я же привёл бенчмарки, и модели там вполне неплохо себя показывают, особенно обученные на коде.
Психика человека не сводится только к языку!
А с этим я полностью согласен, но кто же говорил о моделировании психики человека? С каких пор это необходимо для математических расчётов? Компьютеры с начала времен считают лучше человека, это даже в слове заложено.
Вы в комментарии по ссылке пишете о необходимости "дополнительных технологических решений, приближающих к уровню рационального мышления человека — наличие внутренних критиков, конкурирующие предположения, систем оценок, представления интересов, мотиваций". Так это и есть RLHF, буквально. Штука, отличающая ChatGPT от GPT-3 начала 2020 года.
А "уровень образного мышления" — это мультимодальные модели, уже наполовину сделанный шаг.
Точность растет только благодаря увеличению обучающей выборки с примерами, а в ней всегда будут лакуны. Или вы гарантируете что это не так?
Для большинства задач точность на одной и той же выборке растёт благодаря росту количества параметров. И это происходит не только потому, что модель что-то запоминает. Модели обобщают, и обобщают неплохо.
Речь о новом знании, которое получается путем обобщений, разных форм концептуализации, поиска корреляций, и тд.
А где граница между "новым" знанием и "cтарым"? Как выглядит фальсифицируемое утверждение? Как можно говорить о наличии "фантазии" и отсутствии возможности генерировать "новые" знания?
Так приведите такие примеры, для которых эксперты в своих областях скажут, что это новые результаты, или хотя бы постановка вопроса, которая ведет к таким результатам. Вы же в теме.
По числам для GPT-3, см. п.6 результаты по арифметическим операция для 4 и более значных чисел.
А ничего, что там числа из оригинальной статьи по GPT-3, которой почти 3 года? Там уже и GPT-3 менялась раз 5, и бенчмарков насыпалось, и токенизацию все стали делать корректную для чисел.
Вы насмешили меня своей пафосностью
Какая же это пафосность? Это называние чуши чушью. В таком виде утверждение слишком слабое, достаточно одного примера текста, которого не было в обучающей выборке, чтобы его опровергнуть, а их в Интернете достаточно. Вот ещё:
Имеет смысл более сильное утверждение: генеративные модели иногда копируют примеры из обучающей выборки или копируют с незначительными изменениями.
Для SD можно посчитать, насколько справедливо это иногда, и оказывается, что не очень часто. Для GPT — нельзя, но только потому, что обучающий корпус закрытый.
Пока никто не отметил что-то граничащее с инсайтом, хотя бы случайно, пертурбативно
Да откуда такие данные? Как вообще можно делать утверждения о том, что "никто не отметил"? У вас в голове мгновенная обработка всей информации в Интернете?
Что касается генераторов картинок, появился новый стиль, который отличается от уже имеющихся, и признан искусствоведами как новый, занявший место в истории художественного искусства?
Ну, да. Вон те же клипы делают во вполне узнаваемом нейро-стиле. То есть само использование моделек и есть стиль.
И кстати, если, они творят новое, то что же художники возмущаются плагиатом?
А вы бы не возмущались, если бы вашу работу отнимали?
Все признают, что с эти проблема у существующих пока систем ИИ на языковых моделях, они могут делать это только для чисел, примеры которые были в обучающей выборке, для произвольных нет. Автор статьи предлагает решение этой проблемы в виде вызова внешнего калькулятора, и других подобных задач, смысл которых языковые модели не понимают, и произвести обобщение не могут.
Все бенчмарки и числа считаются на отложенных тестовых выборках, причем для современных моделей вообще без дообучения на обучающих выборках бенчмарков. Калькулятор здесь как пример обращений языковых моделей к внешним сервисам. Метрики для для языковых моделей и математики можно посмотреть на multistep_arithmetic и Lila, для непредобученных моделей — ListOps LRA, и они довольно хороши.
Статистикой можно охватить очень много всего, в основном потому что у языковой модели есть ограничения, которые не дают ей запомнить обучающую выборку. Поэтому ей приходится сжимать информацию. А для наиболее эффективного сжатия нужно эту информацию понимать.
Это потому что эти примеры были в обучающей выборке
Но это же чушь. С языковыми моделями ложность этого утверждения может и не так очевидна, но с SD и картинками это уже неоднократно проверялось и совсем не так: процент плагиата обучающей выборки незначителен и обусловлен в основном дублями в обучающей выборке.
Да в сущности в любых, которые умеют работать с Лламой и позволяют задавать свой формат промпта. Я когда-то тестировал в oobabooga/text-generation-webui, вполне работало.
Да и демки вон на Gradio тоже вполне работают.
Статья хорошая, есть пара замечаний:
load_in_4bit=True по умолчанию использует fp4, да и двойная квантизация отрублена. nf4 как будто бы лучше, bnb_4bit_quant_type="nf4" в том же конфиге, там же и двойную квантизацию можно включить. В целом load_in_4bit едва ли предназначен для использования без дообучения, тут лучше смотреть в сторону gptq или ggml.
О квантизации позаботились не создатели Лламы, а разработчики bitsandbytes, accelerate и transformers, а конкретно Тим Деттмерс.
В большинстве случаев незачем писать собственный сервер, когда есть TGI или vLLM.
Нет никакой CodeLLaMA2, вы предложили автору перейти с той модели, которую он использует, на её же саму. CodeLLaMA и есть дообученная на код LLaMA2.
И вышла она не месяц назад, а меньше двух недель назад.
Про квантизацию написаны неправильные вещи.
Основная причина использовать int8 - это экономия GPU RAM. С точки зрения финального качества fp16 лучше int8.
LLM.int8/QLoRA - это mixed precision методы, у них нет никаких плюсов с точки зрения скорости работы модели.
QLoRA - это int4, а не int8.
Нужно в настройки зайти и включить Beta features. Там есть и браузинг, и плагины.
https://help.openai.com/en/articles/6825453-chatgpt-release-notes#h_9894d7b0a4
Да я скорее просто хотел продемонстрировать браузинг, очень полезная фича. Не нужно тексты руками копировать. Комментарий в другой ветке тоже сгенерирован, если что. А может и этот...
О, да, конечно, AI заставит всех авторов и журналистов писать лучше. Ведь это так просто, правда? Просто подними свои навыки на новый уровень, и всё будет хорошо. Но, подождите... Не все авторы смогут адаптироваться и начать писать как Шекспир, чтобы конкурировать с AI. И, кстати, AI может написать статью гораздо быстрее любого человека. Так что удачи в этой неравной гонке!
И да, представьте, что произойдет, когда каждая статья, которую вы видите, будет написана AI. Какая прелесть! Мир, переполненный контентом от AI. Вот где истинное качество, не так ли?
В общем, пусть AI стимулирует улучшение качества текстов. Но давайте не будем делать вид, что это будет легкой прогулкой для всех. И, вероятно, в конечном итоге нам всем придется перебирать тонны AI-сгенерированных статей, чтобы найти что-то стоящее.
Я прочитал эту статью, и, честно говоря, мне не совсем понравилось, что я увидел. Использование AI для написания статей может звучать здорово на бумаге, но автор забывает о паре важных деталей.
Первое, что бросается в глаза - это отсутствие дискуссии о том, насколько этично использовать AI для создания контента. Ведь уникальность и оригинальность, которую приносит человек, не сможет повторить никакой AI.
Затем, автор не говорит о том, что может случиться, если мы все будем использовать AI для написания статей. Где будут работать журналисты и авторы? А еще AI может написать что-нибудь не то, и нам придется все равно перепроверять и редактировать его работу.
И, наконец, хотя автор говорит о необходимости развивать российские нейросети, он не предлагает никаких идей о том, как это сделать.
В общем, мне кажется, что в статье много пустого звона и мало конкретики. Нам нужно больше фактов и меньше обещаний.
Доступна только для исследования — да, "нелегальна" — нет. Остальное — вопрос малого количества времени, уже в пределах месяца. Есть open_llama, есть MPT.
OpenAssistant и с другими базовыми моделями существует, например с Пифией.
Резкий скачок в наличии выбросов в активациях как раз в районе 7B (см LLM.int8). Остальные "скачки" — неправильный выбор метрик (см. мираж). Но я в целом согласен, 7B не то чтобы прям хороша. Только и у Яндекса даже не 20B.
Нейросеть нового поколения Сайга появилась на Huggingface (больше месяца назад, правда)
Как это работает: Я не первым взял LLaMA и дообучил к ней адаптеры, но первым сделал это для русского. Сайга научилась решать творческие (и не только) задачи: она напишет сценарий для выпускного, составит деловое письмо или предложит план путешествия.
Как воспользоваться: Откройте репозиторий с 7B llama.cpp версией, следуйте инструкциям. Это работает везде, где есть хоть какой-то CPU и 10+GB RAM, в том числе на макбуках. Код открыт, есть и 13B/30B версии.
Как обучали Сайгу: Известными методами собрали инструкции, диалоги и ответы из ChatGPT, обучили на самом мощном в моей квартире компьютере с одной RTX 3090.
Что дальше: Запуск месяц назад — это первый шаг. Нейросеть постоянно обучается (точнее мы её дообучаем), поэтому с каждым днём Сайга будет становиться умнее.
Ах да, Сайга абсолютно бесплатна. Она не собирает ваши данные, не требует установки сомнительного софта, если не считать таковым биндинги для llama.cpp. И да, она обращает внимание на предыдущие реплики.
Посыл статьи правильный, OpenAssistant - моё почтение, сам немного размечал. Но вот по фактам из статьи есть вопросы.
В каком месте там RLHF или даже RLF? Там чистейший SFT.
И как это делает нелегальным датасет?
Llama вполне свободно лежит на HF: ссылка.
Как и многочисленные воспроизведения Альпаки, которые делаются за пару десятков баксов: ссылка.
И всё это на самом деле ортогонально OpenAssistant, никто не мешает использовать оригинальный self-instruct на базовых моделях для него.
А ещё в статье почему-то нет ничего про OpenChatKit.
Потому что я её попросил? Вот изначальный ответ.
Анализ, конечно, местами некорректен, но это вполне объяснимо, учитывая тот факт, что русский язык в ChatGPT вообще чудом работает.
Изначально было "Красивая куздра быстро прыгнула через чашку и читает стол", это ответ на "финальная фраза какая-то несогласованная, попробуй сделать так, чтобы она имела смысл".
Достаточно хорошо?
Но ничего такого и правда нету.
На пике ODS там было 60к человек. Это все, кто хоть как-то интересовался машинным обучением и обработкой данных. Ещё столько же скорее всего интересовались, но в ODS не состояли. Из них 2-3 тысячи интересуются NLP, но в основном очень-очень прикладными вещами. Языковые модели до ChatGPT из них трогало меньше тысячи людей. Из них... ну вы поняли.
А был такой момент, вы просто не помните. Даже целый сабреддит есть, оно ещё и за границей было известно. Первая open-source версия DALL-E, шутка ли!
И такой момент был.
https://daily.afisha.ru/brain/7074-pochitayte-anekdoty-ot-russkoy-siri-ee-zovut-alisa/
Сданы и забыты? Вообще Алиса голосовой помощник прежде всего, а значит на длинные ответы не заточена. Корректно GPT сравнивать с Балобобой, а ChatGPT с каким-нибудь InstructБобой.
Я старался вообще не упоминать эту страшную аббревиатуру. Совсем не важно, ИИ или нет. Важно только то, полезны ли модели или нет.
Но тест Тьюринга это и не про реальное общение. Формат игры в имитацию довольно специфичен, и как раз придумывание анекдотов вполне в него вписывается. И ответ в указанном стиле тоже вписывается.
Вот прекрасная короткометражка на тему:
Это уже какой-то другой тест, назовите лучше своим именем.
Но это неправда. Она может и 175B (на самом деле сейчас даже меньше), но другая. Я вроде выше уже кидал картинку.
Что значит нельзя доказать? Какой смысл оперировать недоказуемыми утверждениями? Я же привёл бенчмарки, и модели там вполне неплохо себя показывают, особенно обученные на коде.
А с этим я полностью согласен, но кто же говорил о моделировании психики человека? С каких пор это необходимо для математических расчётов? Компьютеры с начала времен считают лучше человека, это даже в слове заложено.
Вы в комментарии по ссылке пишете о необходимости "дополнительных технологических решений, приближающих к уровню рационального мышления человека — наличие внутренних критиков, конкурирующие предположения, систем оценок, представления интересов, мотиваций". Так это и есть RLHF, буквально. Штука, отличающая ChatGPT от GPT-3 начала 2020 года.
А "уровень образного мышления" — это мультимодальные модели, уже наполовину сделанный шаг.
Для большинства задач точность на одной и той же выборке растёт благодаря росту количества параметров. И это происходит не только потому, что модель что-то запоминает. Модели обобщают, и обобщают неплохо.
А где граница между "новым" знанием и "cтарым"? Как выглядит фальсифицируемое утверждение? Как можно говорить о наличии "фантазии" и отсутствии возможности генерировать "новые" знания?
https://www.nature.com/articles/d41586-023-00340-6, после "Even so".
Оттуда же:
И такого будет больше, ChatGPT меньше полугода.
А ничего, что там числа из оригинальной статьи по GPT-3, которой почти 3 года? Там уже и GPT-3 менялась раз 5, и бенчмарков насыпалось, и токенизацию все стали делать корректную для чисел.
Какая же это пафосность? Это называние чуши чушью. В таком виде утверждение слишком слабое, достаточно одного примера текста, которого не было в обучающей выборке, чтобы его опровергнуть, а их в Интернете достаточно. Вот ещё:
Имеет смысл более сильное утверждение: генеративные модели иногда копируют примеры из обучающей выборки или копируют с незначительными изменениями.
Для SD можно посчитать, насколько справедливо это иногда, и оказывается, что не очень часто. Для GPT — нельзя, но только потому, что обучающий корпус закрытый.
Да откуда такие данные? Как вообще можно делать утверждения о том, что "никто не отметил"? У вас в голове мгновенная обработка всей информации в Интернете?
Ну, да. Вон те же клипы делают во вполне узнаваемом нейро-стиле. То есть само использование моделек и есть стиль.
А вы бы не возмущались, если бы вашу работу отнимали?
Все бенчмарки и числа считаются на отложенных тестовых выборках, причем для современных моделей вообще без дообучения на обучающих выборках бенчмарков. Калькулятор здесь как пример обращений языковых моделей к внешним сервисам. Метрики для для языковых моделей и математики можно посмотреть на multistep_arithmetic и Lila, для непредобученных моделей — ListOps LRA, и они довольно хороши.
Статистикой можно охватить очень много всего, в основном потому что у языковой модели есть ограничения, которые не дают ей запомнить обучающую выборку. Поэтому ей приходится сжимать информацию. А для наиболее эффективного сжатия нужно эту информацию понимать.
Но это же чушь. С языковыми моделями ложность этого утверждения может и не так очевидна, но с SD и картинками это уже неоднократно проверялось и совсем не так: процент плагиата обучающей выборки незначителен и обусловлен в основном дублями в обучающей выборке.