Pull to refresh

Comments 29

PinnedPinned comments
UFO just landed and posted this here

Второй день не приходит ссылка на вход. Пробовал другую почту - то же самое.

A sign-in link has been sent to your email address. :(

В спаме не лежит, случаем? В крайней случае можно через дискорд попробовать

В спаме не лежит, случаем?

Вот же ж ;)

Мне тоже не приходило, попробовал ten-minute email - пришло сразу. А через два дня и на мою почту письмо попало.

Интересный проект! У вас на скриншотах показаны элементы переписки. Подскажите, где-то можно попробовать с ним пообщаться? Не могу найти, можете поделиться ссылкой, если да?

Есть несколько способов на данный момент, но модели сырые (были обучены только с применением SFT без RLHF), пока только побаловаться можно. Наиболее хороший результат на данный момент у Open Assistant (SFT) LLaMa, но её, увы, навряд ли официально сможем выложить от лица LAION. Впрочем, я уверен, что уже спустя сутки энтузиасты сами всё обучат, ну или кто-то совершенно случайно сольёт внутренние разработки :)

Если лень париться и просто хочется потрогать —https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming. Русский пока в зачаточном состоянии (у Pythia с ним очень плохо в режиме SFT, даже не знаю, исправит ли ситуацию дальнейшее RLHF), в примере для статьи использовал автоматический переводчик (ру -> англ; англ -> ру), вот LLaMa может и без него на довольно недурном уровне, но... ¯\_(ツ)_/¯

oa_sft_llama_30bq на русском
oa_sft_llama_30bq на русском
ПИНДУШКА!!!
ПИНДУШКА!!!

Ещё можете на коллабе потыкать —https://colab.research.google.com/drive/15u61MVxF4vFtW2N9eCKnNwPvhg018UX7?usp=sharing, там как раз встроена функция переводчика автоматического, просто язык надо выбрать.

Самая первая демка — https://huggingface.co/OpenAssistant/oasst-sft-1-pythia-12b, на её основе писал под себя Telegram бота. Можно вызвать через API от Hugging Face или попытаться запустить у себя.

Есть ещё rwkv.

Там мало того что куча моделей, включая основанные на инструкте, но они ещё и с жиру бесятся.

Slightly weaker than ctx4096 model when ctxlen < 3k.

Это из описания модели на 7B параметров на контекст в 8к токенов

Зашёл ради это комментария. Действительно rwkv выглядит самым интересным вариантов для запуска на обычном железе. Да и для разработчиков тоже. Ведь сама модель простая RNN без всяких замудрённостей в виде сетей внимания.

Жаль что в такой хорошей обзорной статье абсолютно ничего про это не сказано.

Чёрт, да, сейчас глянул, интересное решение. Как-то упускал из виду всё время...

Спасибо, что упомянули, возможно, что выпущу ещё один обзор, где уделю этому внимание.

@Guul

Я совершенно далёк от всего этого, но общаться с тем же ChatGPT мне нравится, и даже есть польза...

Скажите, а может ли помочь в развитии такая модель, как использовали раньше для поиска внеземных сигналов\ расшифровки белков, когда люди устанавливали на компьютере программу и она в свободное время производила вычисления? Или такое уже есть в природе?

По-моему, этим занимаются в основном всё же не языковые модели (по крайней мере не вида Instruct), хотя их использование в этих делах может разительно помочь. Из схожих тем припоминаю лишь: https://naked-science.ru/article/hi-tech/google-predskazyvaet-funktsii-belkov, https://deepmind.com/blog/article/AlphaFold-Using-AI-for-scientific-discovery. С остальным не очень знаком.

Посыл статьи правильный, OpenAssistant - моё почтение, сам немного размечал. Но вот по фактам из статьи есть вопросы.

Можно назвать Alpaca форком LLaMa. Интересный подход к обучению на основе RLHF с применением text-davinci-003 (модель OpenAI).

В каком месте там RLHF или даже RLF? Там чистейший SFT.

Но и тут есть поводы для грусти: технически, датасет не совсем легален, так как TOS у OpenAI запрещает подобное использование пунктом 2.C.iii.

use output from the Services to develop models that compete with OpenAI;

И как это делает нелегальным датасет?

Llama вполне свободно лежит на HF: ссылка.
Как и многочисленные воспроизведения Альпаки, которые делаются за пару десятков баксов: ссылка.

И всё это на самом деле ортогонально OpenAssistant, никто не мешает использовать оригинальный self-instruct на базовых моделях для него.

А ещё в статье почему-то нет ничего про OpenChatKit.

В каком месте там RLHF или даже RLF? Там чистейший SFT.

Да, действительно, не обратил внимания при написании, спасибо, исправил.

И как это делает нелегальным датасет?

Я не юрист, но многие соглашаются, что этот пункт довольно мутный и может быть использован, в том числе и для основы судебных исков против моделей, обученных на таком датасете. Да, сам датасет технически не будет нелегальным, но обучение на нём — по всей вероятности. Compete — очень расплывчатый термин. Имеется ли в виду, что конечный результат не должен быть коммерческим? Или в принципе не может существовать легально? За ремарку спасибо, подкорректировал.

Насчёт llama и alpaca: думаю, рука Цукерберга ещё просто не добралась до этих репов или они выборочно (не) забивают, в статье приводил примеры, которые показывают, что всё же что-то не так.

С OpenChatKit поверхностно знаком, но не успел изучить на должном уровне, в будущем возможно буду выпускать новые статьи.

Спасибо за отзыв.

Кто-нибудь попробовал поучаствовать в обучении ассистента? Мне вторым заданием выпало: "Ответтье от лица ассистента. Придумайте настольную игру для четырёх человек". И мне вспомнился мем про ChatGPT и индийских женщин за компьютерами.

Можете рассказать за предустановки?

;)
;)

Может статью на VC.ru запилите, что можно на русском пообщаться с ботом? Может поспособствует набору людей для выполнения заданий по ранжированию, маркировки и предоставлению ответов.

P.S. Без перехода по ссылке у меня не видно раздела "Диалог".

Именно смысл всех этих параметров?
Можно тут ознакомиться подробно, если вкратце:

  • Top K — количество наиболее вероятных слов, которые будут рассматриваться при выборе следующего слова. Например, если Top K = 50, модель будет рассматривать только 50 наиболее вероятных слов при выборе следующего слова.

  • Top P  вероятность массы слов, которые будут рассматриваться при выборе следующего слова. Например, если Top P установлено равным 0.9, то модель будет рассматривать только те слова, вероятность которых в сумме равна или больше 0.9.

  • Temperature — это параметр, который контролирует случайность выбора следующего слова. Чем выше температура, тем больше вероятность выбора менее вероятного слова.

  • Repetition penalty — параметр, который штрафует повторение слов в генерируемом тексте.

  • Max new tokens — максимальное количество новых токенов, которые могут быть сгенерированы за один раз.

  • Typical P — параметр, который помогает модели выбирать наиболее типичные слова для генерации текста.

Если про сами предустановки, то просто разные вариации этих параметров, можете потыкать или посмотреть здесь как меняется ответ в зависимости от выбранной конфигурации. По сути то же самое, что в KoboldAI


Да, надо бы запилить, но у меня процесс написания обычно туго идёт, хе, эту статью писал около двух недель из-за прокрастинации и боязни чего-то упустить или сморозить глупость (оказывается, что всё же упустил, выше писали про rwkv и иные штуки). Кнопка уже в PR, скоро добавим.

UFO just landed and posted this here
UFO just landed and posted this here

Спасибо за статью! Тоже немного участвовал в разметке. Не подскажете, что известно по минимальным характеристикам для запуска? Интереса ради :)

Пока сложно судить, но по идее натренированную ламу без проблем можно будет запустить с теми же характеристиками, что и обычную (7b-4q даже на телефонах идёт, хе; но я думаю, что ещё есть куда оптимизировать, и даже запуск 30b станет не таким затратным в ближайшее время, как это было с Stable Diffusion [который уже можно запустить на 4gb VRAM]; 3090, думаю, потянет 30b-4q прямо сейчас)

3090 - это хорошо, но было бы еще более приятно, если бы остались те же характеристики для 30B под ~24GB RAM с обработкой на CPU :)

Sign up to leave a comment.

Articles