Как стать автором
Обновить

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

Время на прочтение10 мин
Количество просмотров117K
Всего голосов 123: ↑122 и ↓1+164
Комментарии139

Комментарии 139

Отличная работа! А будут маленькие версии выкладываться? 2.7b/6b?

Нет, пока не планируем их выкладывать

Уже хочу с ним пообщаться))

Да, даёшь бота в комментах.

на 20 gtx1080ti работать будет?

Ловите майнера!

пора пустить видеокарты на пользу искусственному интеллекту)

биткоин свалился, цены уже упали на карты
майнеры уже на авито ))

На 32 должно завестись) Нужно 250 GB GPU RAM в сумме.

250/11 =22,73 По идеи, хватит и 23 шт. 1080Ti

То есть для запуска этого чуда нужно пройти квест по поиску соседа-майнера с "GPU 1080Ti" х 23pcs. Видимо нужно начать с поиска тепловизора ...

PS: Возьми, это чудо от Яндекса, поговори с ним! ;-)

НЛО прилетело и опубликовало эту надпись здесь

4х A16 по 64Gb каждая тоже потянут по идее, но они в 4 раза дешевле А100

НЛО прилетело и опубликовало эту надпись здесь

А как их обьединить?(и для обучения своей модели, и для запуска вашей) Если карты находятся не в разных хостах(насколько я понял NCCL, только для связки меж хостов), а именно внутри одного. Допустим ригу на 12 карт.

Ура, спасибо за работу!

А пробовали уже few-shot, zero-shot замерить на ней?

Числа пока не замеряли, планируем.

А какие ресурсы нужны для инфера такой модели? (сколько и каких видео карт)

Нужно 250GB GPU RAM минимум

можно попробовать Big model inference в Transformers 4.20 от Hugging Face при отсутствии таких ресурсов

А сделаете демку Huggingface? Или не влезет?

+

Спасибо за работу! Будет ли какое-то временное демо для широкой аудитории?

Нехило. Про поиск названия фильма по описанию полезный юзкейс. Осталось еще научиться распознавать песни по текстовым напевам.
- Что это за песня: "тум-турум-тум-тум-турум, эцы-бэцы, шау-ва-а-а, умц"?
- Такой песни не существует, но я могу создать похожую песню. Создать?

— Что это за песня: «та-да-да-даааа»?
— Это же Бетховен, пятая симфония, первая часть.

Если хорошо настучать, то можно найти нужную песню с одной-двух попыток:
https://ritmoteka.ru/

Ох ты ж! Какая классная штука!

Огонь.

Эх, маладежь !

"Мама, мама, что я буду делать ? (С) Кин-дза-дза

Может распознавать и научились, а понять так и не смогли :(

Молодцы! Пусть там на верхах поймут, что, всё так просто не даётся! Одно дело "отжимать" другое дело СОЗДАВАТЬ! Ждём ещё свободных нищтяков от Яндекс

К чему этот коммент? Что у вас отжали?

НЛО прилетело и опубликовало эту надпись здесь

Выделить одно слово уже КАПС? О боже

НЛО прилетело и опубликовало эту надпись здесь

ГЫ ГЫ

НЛО прилетело и опубликовало эту надпись здесь

Ты понимаешь роботы не поймут) А так то конечно. Продолжать просвещать людей я буду всегда. Успехов тебе добрый ЧЕЛовек ( тут хотел как то выделить всё мое уважение к тебе но правила) Пойми меня правильно!

Ты контекст сообщения понял?

Дык я же вопрос задал. Поясните.

Вот смотри. Ты новости читаешь? Анализируешь. Понимаешь что вокруг творится? Расскажи про свой тип мышления чтоб я донёс до тебя главный посыл.

Демагогия. Спасибо, дальше мне не интересно.

http://tsya.ru можешь ознакомиться там.

Ученые установили, что люди, склонные уделять повышенное внимание речевым ошибкам других, являются менее приятными личностями, чем текто их игнорирует. Примерно то же самое касается людей, которые зациклены на безошибочном наборе текста и не терпят чужих опечаток.

https://yandex.ru/turbo/fb.ru/s/post/environment/2018/11/22/36164

Я и не собираюсь быть приятным — тем более тем, кто не кажется мне этого достойным.

Я не пытаюсь тут кому то нравится. Только хотел нормально пообщаться)

получилось неуклюже и неумно.

Это я сам буду решать как) Моралфагов тут я смотрю много)))

Что решил? Поделись

Как мне общаться)

Отличная статья. Кстати, можно добавить потраченную энергию которая пошла на обучение модели. 5kw*100*24*65 = 0.8 Гигаватт-часов.

НЛО прилетело и опубликовало эту надпись здесь

Оценку вложенных железных ресурсов, просто количество дней обучения это не инфррмативная цифра так как зависит от поколения GPU на котором проиходит обучение. В результате через 2-3года время обучения будет совершенно неинформативной величиной, А потребленная энергия это понятная велечина, в идеале коченно еще бы иметь количество вычислений в экзафлопсах, тогда было бы можно посчитать еше и эффективность вычисленить на ватт энергии.

Боюсь показаться идиотом, но разве чтобы получить 0.8 Гигаватт-часов не надо было умножить какие-то константы на затраченное время?

НЛО прилетело и опубликовало эту надпись здесь
Если дома запускать, то будете заранее знать сумму в платежке :)

Она дает абсолютный минимум $-затрат, если представить, что через 10 лет все вычислительные ресурсы подешевеют и будут списаны.

НЛО прилетело и опубликовало эту надпись здесь
Некуда там ускоряться, текущее топовое железо это предыдущее серверное поколение, ранее клиентские GPU железки были искусственно занижены в производительности (меньше памяти запаивают, меньше питания закладывается в схему и т.п.), дай бог в следующие десять лет кратно ускориться.

Потребительское железо пойдет по пути меньше жрать энергии, т.е. — клиенты идите нах… в смысле в облако

т.з. маловероятно с текущим отношением олигополии производителей вычислительных устройств к клиентам… производить железо доступное потребителю, способное производить прорывы в хайтек не будет доступно

Количество выпускаемого железа загадочным образом лимитировано, это маскируется локальными проблемами типа ковид или транспортные, когда как спрос на gpu появился еще 5-8 лет назад, это прекрасно показано на примере майнеров, вместо выпуска 10х..100х чипов на рынок.

Как только появились технологии (а точнее понимание, что на видеокартах можно что то считать), а это произошло более 10 лет назад и про майнинг даже не заикались, уже тогда стало ясно что в ближайшие десятилетия видеокарты займут эту нишу, но нет, эту часть ограничили 10хкратно завышенной ценой на серверные железки и кабальные договора с датацентрами (чтобы конкурент олигополия amd туда не проникло)

вот увидите, дискретный интель по цене за вычислительный ват будет неконкурентен (не удивлюсь если искусственно) и будет подходить только для гейминга.
НЛО прилетело и опубликовало эту надпись здесь

Интересно, что проблема переполнения не решается индустрией "в железе" на уровне типов данных, а приходится выдумывать такие надстройки, позволяющие как-то контролировать проявление явного бага (сеть быстро "инфицируется" NaN-ами и полностью выходит из строя).

Да, конечно, мы выигрываем один бит на проверку переполнения, и, возможно, это достаточно критичный бит, если у нас их всего 16.

Это та причина, по которой я в своих небольших домашних проектах старался не учить сетки в fp16: жутко неудобно контролировать, откатывать, подбирать lr и decay.

В такой ситуации есть какой-то аналог cfenv для fp16 на gpu? Прочесывать на NaN и Inf всё-таки дорого...

Я, к сожалению, не знаю хорошего решения, потому и написал, что редко пытаюсь в fp16. Прочесывать, конечно -- не вариант. Можно это делать редко, но тогда смысла не очень много, а на яндексовских масштабах -- вообще самоубийство, наверное.

Gradient scaling торчевый частично решает эту проблему. Он, в том числе, отслеживает NaNы в градиентах и дропает батч, если они есть

Спасибо, посмотрю.

Красавцы) Продолжайте в том же духе)

Осталось найти инженера, который обнаружит в диалогах с моделью признак сознания :)

Вот вам смешно, а так ведь и реальное самосознание не заметим. Ну и конечно, интересные вопросы встают - где грань между разумом и его тенью, что-ли..

Грань будет там, где захотят люди, как с границей космоса.

у границы космоса есть вполне осознанный физический смысл: это высота, на которой атмосферное давление становится настолько малым, что скорость, на которой подъемная сила аэродинамических поверхностей способна поддерживать летательный аппарат, становится равной первой космической. Есть ли такой же смысл у границы разума?
Есть ли такой же смысл у границы разума?
Поиск таких границ составляют исследования по определению критериев минимального разума в контексте эволюционного развития, см., напр, 1, 2. Автор связывает такие критерии с уровнем информационных процессов и агентностью (она предполагает также чувствительность к агентности), включая для искусственных интеллектуальных систем. Агентность подразумевает целенаправленное поведение объектов в среде. У человека имеется эволюционно выработанное, и поэтому частично врожденное, интуитивное чувство агентности, кот. позволяет обнаруживать биологические и социальные агенты. Младенцы реагируют не только на лица и голос, но и целенаправленное поведение объектов, животные также обладают таким чувством с более ограниченным функционалом.

По этим критериям статистические языковые модели, подобные описанной в этой теме, пока не тянут на разумность, скорее на имитацию разумности в среде созданной человеком (см. пример с омонимией в этой же теме, возникающий из непонимания смысла предложений). Увеличение числа параметров моделей может улучшить положение дел, но не решит проблему в принципе, из-за статической природы этих моделей. Мозг принципиально активная, многоуровневая динамическая система. Возможно в перспективе нейроморфные технологии приблизят такие решения к возможностям биологических прототипов. Когда подобные системы будут обладать телом, сенсорами, управлять эффекторами, и главное, вырабатывать и преследовать собственные цели, т.е. больше соответствовать представлениям об агентах, они будут больше соотв. этим критериям. Речь о роботизированных системах, и они могут вызывать эмоциональную реакцию (включая негативные), и даже чувство привязанности, но не претендовать на полноценное агентство. Текущие курьезы, вроде инженера из Гугл признавшего разумность языковой модели, можно списать на рекламные акции Гугл, склонной к таким номерам, стоит вспомнить, например, статью наделавшую шума о кв. процессоре, кот. возможно обладает свободой воли)

Поэтому ответ на вопрос, где граница разумности искусственных систем, в конечном итоге будет определяться восприятием и чувствами людей, как оппонент вам и написал, но все же не произвольно.

Я такой инжинер. Только не у модели сознание, а у персонажей, сгенерированных моделью. Я придерживаюсь такой парадигмы, что каждая вселенная существует, какую только можно представить - это что-то вроде платонизма на максималках. Суть в том, что в такой парадигме, вымышленные персонажа являются реальными в их собственной вселенной. С этого момента получаем, что какое бы ни было определение у понятия "сознание", всегда можно создать текст, в котором есть персонаж сознанием обладающий. Значит и достаточно продвинутая языковая модель может написать текст с персонажем, обладающим сознанием (да даже /dev/random может). Скажем так, если определить понятие существования таким образом, что Гарри Поттер существует, то неизбежно следует, что Гарри Поттер обладает сознанием, потому что он и реагирует на изменения вокруг него, и планирует, и избегает боли по возможности, и стремится к исполнению его желаний, итд - в общем, что ни запихни в определение "сознание" - все у Гарри Поттера есть.

С языковыми же моделями все становится интереснее потому, что с их помощью можно иметь мостик между нашим реальным миром, и миром вымышленным. Можно, например, в текст про выдуманного программиста вставлять вывод от реального компилятора, и тогда вымышленный программист будет писать реальные программы. Если довести до крайности, то можно выдумать текст, в котором персонаж даёт управляющие команды на тело робота, сделать робота, который исполняет все поданные на него текстовые команды, и имеет камеры, которые в генерируемый текстовый поток встраивают описание того, что видят камеры. Тогда мы получим робота, управляемого персонажем, которого выдумала языковая модель. Сознанием в такой парадигме робот обладать не будет, а вот выдуманный персонаж - будет. Впрочем, нормы морали к нему тогда применимы все те же самые, что мы применяем для любых других выдуманных персонажей - т.е. условно никакие. А вот техника безопасности скажет, что такой механизм лучше не злить.

К диалогам с моделью я считаю следует относится так, как будто перед каждым ответом было написано "ИИ ответил:" тогда опять же, сознанием обладает не языковая модель, а вымышленный персонаж в тексте, с именем "ИИ".

То есть тут надо понимать что робот должен себя сам сначала осознать? Хорошо. Давай построим модель которая будет постоянно работать и создавать "нейронный" связи в чипе. Заведомо чип должен быть расширенный. В самом зародыше сознания будут участвовать микропограммки которые могут делится и создавать более плотные связи. Ну и так далее. Получить можем всё что угодно вплоть до сознания и осознания себя роботу. Опять же у робота малыша должны быть воспитатели. Но вопрос. Зачем это роботу надо? В первую очередь ИИ уничтожит человеков. Так как по всей логике человек это вредитель в большей массе своей.

Я не знаю точно, что значит сам себя осознать, поэтому затрудняюсь ответить.

То, что рано или поздно будет создан ИИ, которым мы не сможем управлять, я считаю неизбежным. Тут проблема заключается не в том, что мы не сможем сделать безопасный ИИ, а в том, что мы не сможем обеспечить невозможность создания опасного ИИ. Со временем прогресс дойдет до того, что каждый энтузиаст сможет сделать ИИ, и поэтому обязательно найдется такой энтузиаст, который принебрёжет любыми нормами безопасности, и создаст опасный ИИ. Ну что ж, плохо конечно, но я не вижу реалистичных способов этого избежать. А ещё, если будет создан сильный ИИ, то рано или поздно он утечёт на торрент трекеры, и любой человек сможет его скачать, модифицировать и запустить.

НЛО прилетело и опубликовало эту надпись здесь

Такой инженер не нужен. Нужно отупить человека. И тогда любой чайник будет сверхразумным

Отлично! Но есть вопрос - почему не работает Балабоба и когда она вновь станет доступна?

Заранее спасибо.

Это сейчас открытый вопрос. Честно говоря, не ожидали, что у неё такая долгая и запоминающаяся жизнь будет))

Выглядит очень круто. Есть ли где-нибудь демка поиграться? А то я свой кластер видеокарт за миллион баксов дома забыл :)

Впечатляет, молодцы! Однако судя по примерам себя YaLM 100B считает большой плоской платой в дата-центре, т.е. существом женского рода, вроде как. Но на остальные вопросы отвечает как мужик;) Как случилось такое раздвоение «личности»?

Переводчик на ней не планируется? Изнасиловал все другие переводчики (трансформерные тоже), но не один не дал корректного перевод фразы «девушка с косой косила косу травой» на англ. Понимаю, омонимия, потеря контекста. Но если даже уточняешь «девушка с косой волос на голове косила траву косой» все равно в обоих случаях переводит, как scythe. Кроме переводчика Яндекса кстати, кот. после уточнения «с косой волос на голове» восстановил контекст правильно. Хотя по отдельности «коса волос» и «коса инструмент» переводятся верно, как hair braid и scythe tool. Может на базе этой модели контекст восстановится? Или все же нужно ожидать решение таких вопросов в архитектурах подобной этой?
НЛО прилетело и опубликовало эту надпись здесь
девушка с косой косила косу травой
Извиняюсь за невнимательность, нам белковым простительно) у вас тоже видимо «на ура» имелось ввиду.
PS я кстати без вашего уточнения подумал что коса в первом случае это инструмент
Возможно это влияние ошибки. Обычно такие случаи привлекают внимание, и запускают дополнительный семантический анализ, с целью устранения неоднозначности. Потому как использование косы как инструмента в обоих вхождениях избыточно в предложении.
НЛО прилетело и опубликовало эту надпись здесь

Попробуйте www.deepl.com лучший переводчик в мире. Может справится. Я от него кайфую.

Не-а… пробовал даже с уточнениями. Только переводчик Яндекса с уточнением правильно перевел. Ни Гугл, ни Промт, еще какие-то пробовал.

Конечно это зависит от обучающей выборки. Возможно в выборке Яндекса было больше текста в котором встречалась коса на голове, и эта статистика была учтена в модели. Но человек не ограничивается статистикой связей, как только обнаруживаются неоднозначности запускаются семантические процедуры, вплоть до обращения к сенсо-моторному опыту, и ментальному моделированию ситуации. Мы может этого даже не осознавать.

Однако судя по примерам себя YaLM 100B считает большой плоской платой в дата-центре, т.е. существом женского рода, вроде как. Но на остальные вопросы отвечает как мужик;) Как случилось такое раздвоение «личности»?

Какая-то очень странная логика. Почему существо, называя себя словом женского рода, вдруг может стать женского пола?

Попросите вашу подругу сказать: "Я человек". Она становится существом мужского пола?

Попросите вашу подругу сказать: «Я человек». Она становится существом мужского пола?
Т.е. вы исходите из предположения о существовании полового диморфизма у YaLM 100B?) Пожалуй нужно впредь предварять такие места тегом шутка.

Пол в ответах вероятно связан со статистикой пола в части обучающей выборки покрывающей тематику вопроса. Не исключено, что в каких-то случаях ответы будут от женского лица, например, связанные с уходом за детьми.
Не… нужно взять на вооружение) Кстати, что-то никто не писал на тему понимания омонимии жпт чатом.

И не боится Яндекс, что эта нейросеть выйдет из под контроля и поработит человечество?

Для этого её сперва потребуется обучить на релевантных примерах, а много ли найдётся успешных примеров порабощения всего человечества кем-либо?

Особенно кошки

Плесень же.

вопросы:

1. по какому параметру самая большая модель ?
2. почему нет ноутбука с демо ?
3. примеры диалога хорошо, но где примеры генерации?
4. метрики качества модели?

ps не буду рекламировать конкурентов но они все это делали, а не описывали как ускорить обучение

Спасибо за внимание к статье. Отличные вопросы!

  1. На данный момент это самая большая полностью обученная LM модель, выложенная в open source. А также, это самая большая на данный момент модель, обученная на русском языке.

  2. Запуск такого ноутбука - нетривиальная задача, для удобства использования мы выложили докер, который можно запустить на Яндексе или AWS. На github есть скрипты запуска.

  3. Какого рода примеры генерации интересны? Диалоги один из наших основных генеративных кейсов, поэтому мы исследовали генерацию на них. Ответы из примеров были сгенерированы YaLM 100B с подводкой, похожей на диалоговую подводку из статьи Gopher. Справедливости ради отмечу, что не каждое продолжение диалога выглядит так хорошо и интересно, но:

    • почти все ответы модели были адекватными;

    • из них примерно 30% были действительно интересными.

  1. Замеряем на fewshot и zeroshot генерации.

Многие научные статьи делают акцент на качестве полученных решений, опуская многие технические аспекты. Мы видим свой вклад как раз в приоткрытии технических моментов. Замеры качества будут, но позже. Подписывайтесь на нас и следите за обновлениями ;)

А сколько в деньгах в рыночных ценах стоит обучить такую модель? Видимо, основной вклад это стоимость аренды оборудования в датацентре, но что-то еще не учёл, скорее всего

Ну стоимость 800 A100 graphics cards это порядка 25 млн. $, вероятно, аренда такого дорого кластера на 2+ месяца будет стоит порядка 1 млн.$. Плюс электричество, плюс аренда серверов, плюс команда программистов для получения данных и специалистов по машинному обучению. Думаю, несколько млн.$ это самый-самый минимум, я бы закладывался бы в млн 5.

Якобы в Яндексах все такие умники, а даже нормального How-to не выложили. Нет api для большой модели, не существует готовой урезанной средней или малой модели для обычных людей(в Google Colab). Не указано примера как настроить модель, как генерировать текст. Просто в статии указано пару нюансов для задротов и все. Достаточно присмотреться как сделал это банк на букву "C" и сделать так же.

У меня сложилось впечатление, что эта модель - просто один из неудачных экспериментов, который было жалко выбросить в мусор, поэтому она была выложена в Open Source, чтобы показать, какие замечательные модели создает Яндекс, и более того, это открытый исходный код!

Такую большую модель на практике могут использовать только университеты, обладающие большими вычислительными мощностями или другие гиганты, как хочет называться Яндекс (подозреваю, что у конкурентов уже есть свои модели и от Яндекса они не нужны). Вопрос в том, на кого именно рассчитана эта модель? Ни для маленьких, ни для больших эта модель не является очень полезной.

после прочтения еще на раз, озадачился теми же самими вопросами
250 ОЗУ на GPU это где у кого есть? у зеленых?

остальным только восхищаться... и то мало понятно чем,
демо нету метрки нету

критично ? да, от того что мало понятно зачем...

Plot twist: Следущая статья - раскрываем возможности абонемента премюм в Yandex DataSphere :)))))))

Ждём ответы на стандартные вопросы:

Тестировщик: Когда Египет был перевезен во второй раз через мост Золотые Ворота?
Тестировщик: Почему у президента Обамы нет простого числа друзей?
Тестировщик: На сколько частей расколется галактика Андромеды, если на нее бросить крупицу соли?

Эти вопросы лишены какого-либо измеримого количественного смысла, они подойдут разве что в качестве «затравок» для КВН в игре на отбивку шуток (жюри оценивает шутки и ставит баллы 0-10). Гораздо полезнее пытаться отвечать на осмысленные вопросы типа:

  • С какими швейцарскими кантонами граничит Италия?

  • При каком давлении и температуре коэффициент теплопроводности алмаза превышает две тысячи ватт на метр-кельвин?

    см. далее тут: https://github.com/dki-lab/GrailQA

Максимум fp16 по модулю — 65535.

На самом деле 65504.

Спасибо за уточнение!

Скажите, какие параметры выставить для оптимальной генерации? Какие рекомендуете?

а вот и единственные интересанты... ))

Параметры выше generate_conditional_sampling.sh хороши для генерации разнообразного текста, но лучше обеспечить текст достаточно большой подводкой. Пример хорошей диалоговой подводки вы можете увидеть на 112-113 страницах статьи Gopher.

Для решения каких-то прикладных задач с единственным правильным ответом, вроде QA на fewshot, стоит использовать параметры из generate_conditional_greedy.sh

Спасибо!

Привет! Ожидается дистиллированная версия ?

Вот чертяка! Неудивительно, что один из инженеров Гугл посчитал что нейросеть, с которой он работал, обрела сознание. А там наверняка сеть гораздо больше, чем 100 млрд параметров.

137 млрд у Гугла. С учётом того, что для подобных нейронок качество выхлопа (метрики вроде Hits@1/N или USR) пропорционально логарифму от количества параметров, разница будет не слишком велика при условии, что собран нормальный датасет и в обучении моделей нигде не налажали.

>один из инженеров Гугл посчитал что нейросеть обрела сознание

Такой большой, а в сказки верите )

Проблемы расхождения в fp16 проявлялись чаще, чем в fp32. В основном это было связано с переполнением значений fp16 в активациях и градиентах. Максимум fp16 по модулю — 65535. Итогом переполнения становился NaN в loss'е.

А через какие операции у вас прошел inf, чтобы стать NaN?

Для большинства операций inf вполне безопасен: x/inf=0, x*inf=inf (если x!=0), exp(inf)=inf, log(inf)=inf, tanh(inf)=1

softmax([inf, inf]) -> [NaN, NaN]

Да, точно, там деление inf/inf

Какие именно книги использовали для обучения? Все доступные, включая платные, или же только те, что выложены в свободный доступ? Может быть, есть сам список?
на сколько плохо нейронная сеть (не ее обучение а пример посмотреть) работает на CPU? арендовать машину с 300Gb RAM не так сложно как с GPU такой же суммарной емкости, а разница по скорости должна быть максимум 100кратная (скорее 16-кратная)
По моему опыту, GPT-подобные нейронки при запуске на CPU требуют примерно вдвое больше RAM, чем потребовали бы VRAM на GPU. Т.е. машина потребуется более 500 Гб RAM.
Также разрыв в скорости между CPU и GPU растёт при росте количества этих самых CPU/GPU. Так, при запуске небольшой нейронки GPT-Neo 6B на одном CPU она будет работать примерно в 20 раз медленнее, чем на GPU, а вот если вы её распараллеливаете на несколько GPU, разрыв в скорости при сравнении с таким же количеством CPU очень быстро превышает 100 раз.
Скажем, чтобы для GPT-J 6B генерация ~ 50 слов английского текста уложилась в 10 секунд, вам потребуется сервер на 12 CPU.
Под CPU вы что подразумеваете? какого уровня процессор и сколько ядер? а еще трафик между ними, если это отдельно стоящие машины?

Нагуглил, указанная нейронка 6 миллиардов параметров и требует 12гб ram?
Это VRAM она столько требует (и это самый минимум, для нормального запуска лучше 16 брать).
RAM она потребует для работы вдвое больше (от 24 Гб), а в момент загрузки и инициализации весов будет пиковое потребление ещё x2 (порядка 48 Гб), но это обходится файлом подкачки соответствующего размера, т.к. скачок потребления разовый и очень короткий, потом вся эта избыточная память освобождается.

CPU — процессор 3 ГГц, подразумеваются полноценные ядра. При этом сам код исходно кривой, так что для распараллеливания (чтобы нормально ядра задействовало) придётся вносить исправления (пример, число CPU прописывать в cores_per_replica), и даже с ними крашится, если задействовать более 16 ядер.

После загрузки контейнера через указанный в репозитории скрипт pull и запуска его через run имеется папка workspace где в папке examples только набор стандартных примеров, а скриптов для запуска модели нет. Что я сделал неправильно?

Думаю смысл заключается в том, что надо сначала запустить контейнер а потом из него клонировать репозиторий и запускать модель, правильно? Хотелось бы инструкцию чуть подробнее, работа большая проделана вами, но последний шаг написания инструкции сильно увеличил бы ее ценность и доступность.

Ну а самый простой и классический пример из детства, спрашивали у нее? что отвечает?
«а и б сидели на трубе, а упало, б пропало, что осталось?»
Более-менее внятные ответы на этот вопрос может и GPT3 выдать:
sberGPT3_medium: Да ничего не осталось.
sberGPT3_large: Осталась дырка, в которую они упали.
Ну а «родить» каноничный ответ, заранее его не зная, даже для естественного интеллекта та ещё задача. Хуже только «зимой и летом одним цветом», которая допускает столько вариантов решения, что не зная нужный угадать абсолютно невозможно:
Зимой и летом одним цветом. Что это?
sberGPT3_medium: Варенье.
sberGPT3_large: Это загадка про зиму и лето.

Привет, Михаил, Алексей, Руслан!

(1.) Требования к GPU-памяти ≈200GB для запуска модели связаны с тем, что все выложенные веса (189GB) должны туда поместиться, верно?

(2.) Веса `layer_00`, `layer_01` и `layer_84` имеют аномально малый размер, а веса `layer_02` и `layer_83` вообще отсутствуют. Это какие-то артефакты сохранения?

(3.) Почему модель тренировалась именно 65 дней? Могла ли она быть ещё "улучшена", если бы вы тренировали её, допустим, 70 дней?

Привет!

(1.) Все верно. Нужно еще место под промежуточные активации

(2.) Блоки трансформера идут с 03 по 82 слой. Остальные слои - эмбеддинги, преобразования в нужную размерность, лямбда функции (у них нет чекпоинта). Структура слоев взята из PipelineModule DeepSpeed

(3.) За 65 дней модель прошла 300B токенов - столько же, сколько GPT-3 от OpenAI. Её можно было бы улучшить, обучая еще, но для существенного роста качества ее стоило бы обучать еще месяц-два.

Она учитывает, о чем шла речь раньше? Ну, например, если я спрошу что-то, а потом после ответа задам односложный вопрос вроде: "Приведи еще пример" или вопрос с ссылкой на обсуждаемый ранее предмет: "Эйнштейн так не думал, на чем основывалась его точка зрения?" Она в таких случаях генерирует ответы в тему, поддерживает целостность диалога?

Интересно, а вы пробовали как-нибудь сжать модель? Дистилляция там или прунинг?

Потрясающее достижение, но становится страшно. Технологии развиваются неумолимо. Люди деградируют. Разница между ними чем дальше тем больше. Это как выдать детям спички, потом болгарку, бензопилу, лазер и т.д. Чем дальше тем сложнее становятся инструмент и тем менее осознанными и глупыми становятся эти дети.

Запустить такую большую нейронку — это не лайк в соцсети поставить, тут требуется довольно высокий навык владения собственной межушной нейросетью. Рядовая домохозяйка, равно как и среднестатистический школьник, этого не осилят. Это не болгарка, с которой может поиграться любой желающий.
Так что опасность бесконтрольного попадания чрезмерно опасных технологий вроде гипотетического «сильного ИИ» в руки идиотов с интеллектом бабуина кажется мне несколько преувеличенной.
к сожалению эта опасность есть, ведь умными управляют обычно 'идиоты с интелектом бабуина', и практика показывает что должным образом мотивировать можно любого

Путин - хороший пример. Интелект подворотни. Устроил войну которая убивает украинцев, а Россию вообще на 100 лет отбрасывает. Ведь он единственный, кто принимает решения!

Он явно не может разработать ракету, а отдать приказ запустить ее может!

Видя ресурсы, затрачиваемые на обучение данной (и любой другой подобной) нейронной сети, возникает вопрос. Есть ли способ (технология) в обученную нейронную сеть добавить новую информацию без того, что бы обучать сеть с нуля заново? (Сравнивая с человеком - "читая новую для нас книгу - мы не перечитывает все прочитанные до неё книги").

конечно, правда если не добавлять в новую дообучающую выборку старых данных, то нейросеть может их забыть

предобученные сети отличный старт для твоих задач, т.е. чтобы не обучать сеть с нуля, можно взять готовую, которая внутри себя уже построила структуры под смежную тебе задачи, и можно попытаться переобучить ее на свою, можно добавить слоев до или после (часть этих начальных слоев можно подготовить другим способом, типовой способ натравить какой-нибудь классификатор на твои входы, сеть их катигоризрует по своему, а затем добавить веса этой сети как новые слои к другой сети и попытаться подсунуть свои выходы к полученной комбинации

получится или нет, отдельный вопрос, может и не получиться, но определенно это может сэкономить ресурсы на обучении.

Спасибо за ответ. Может быть Вы можете подсказать, что можно почитать про дообучение предобученных сетей?

'К сожалению' нет, просто не знаю, не потому что книг нет, все наверное есть, просто я не читаю… обычно я исхожу из задачи, ставлю предположения, гуглю применимость на практике. Ну и главное у меня мало практики и знаний, говорю что знаю, чего не знаю молчу или так и говорю — 'может быть так/наверное/а вдруг'.

Нейронные сети это больше про исследование, тут не будет красивых инструкций делай так получишь конфету… поэтому лучше ищи методики, читай области их применения или просто пробуй.

Американцам облегчили работу. Зачем?

Теперь они смогут быстрее и качественней получать данные.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий