MichaelEk Jun 23 2022 at 10:59

Яндекс выложил YaLM 100B — сейчас это крупнейшая GPT-подобная нейросеть в свободном доступе. Вот как удалось её обучить

10 min

116K

Яндекс corporate blogOpen source*Algorithms*Machine learning*Natural Language Processing*

Technotext 2022

+164

139

Comments 139

alexwortega Jun 23 2022 at 11:09

Отличная работа! А будут маленькие версии выкладываться? 2.7b/6b?

MichaelEk Jun 23 2022 at 11:48

Нет, пока не планируем их выкладывать

Rubilnik Jun 23 2022 at 11:23

Уже хочу с ним пообщаться))

leshabirukov Jun 23 2022 at 19:34

Да, даёшь бота в комментах.

Xapc Jun 23 2022 at 11:26

на 20 gtx1080ti работать будет?

bigbadmutuh Jun 23 2022 at 11:42

Ловите майнера!

+41

Xapc Jun 23 2022 at 18:33

пора пустить видеокарты на пользу искусственному интеллекту)

dimnsk Jun 24 2022 at 08:32

биткоин свалился, цены уже упали на карты
майнеры уже на авито ))

MichaelEk Jun 23 2022 at 11:48

На 32 должно завестись) Нужно 250 GB GPU RAM в сумме.

+12

Shnurokspb Jun 23 2022 at 14:15

250/11 =22,73 По идеи, хватит и 23 шт. 1080Ti

sled Jun 23 2022 at 16:19

То есть для запуска этого чуда нужно пройти квест по поиску соседа-майнера с "GPU 1080Ti" х 23pcs. Видимо нужно начать с поиска тепловизора ...

PS: Возьми, это чудо от Яндекса, поговори с ним! ;-)

UFO just landed and posted this here

voted Jun 23 2022 at 17:18

4х A16 по 64Gb каждая тоже потянут по идее, но они в 4 раза дешевле А100

UFO just landed and posted this here

Degterev1962 Jun 30 2022 at 10:12

А как их обьединить?(и для обучения своей модели, и для запуска вашей) Если карты находятся не в разных хостах(насколько я понял NCCL, только для связки меж хостов), а именно внутри одного. Допустим ригу на 12 карт.

Rybolos Jun 23 2022 at 11:31

Ура, спасибо за работу!

А пробовали уже few-shot, zero-shot замерить на ней?

MichaelEk Jun 23 2022 at 11:49

Числа пока не замеряли, планируем.

azsh1725 Jun 23 2022 at 11:49

А какие ресурсы нужны для инфера такой модели? (сколько и каких видео карт)

MichaelEk Jun 23 2022 at 11:49

Нужно 250GB GPU RAM минимум

kastus_belarus Jun 23 2022 at 13:28

можно попробовать Big model inference в Transformers 4.20 от Hugging Face при отсутствии таких ресурсов

Rybolos Jun 23 2022 at 12:00

А сделаете демку Huggingface? Или не влезет?

+10

dimnsk Jun 23 2022 at 16:16

averkij Jun 23 2022 at 12:02

Спасибо за работу! Будет ли какое-то временное демо для широкой аудитории?

lxsmkv Jun 23 2022 at 12:03

Нехило. Про поиск названия фильма по описанию полезный юзкейс. Осталось еще научиться распознавать песни по текстовым напевам.
- Что это за песня: "тум-турум-тум-тум-турум, эцы-бэцы, шау-ва-а-а, умц"?
- Такой песни не существует, но я могу создать похожую песню. Создать?

+16

averkij Jun 23 2022 at 13:00

— Что это за песня: «та-да-да-даааа»?
— Это же Бетховен, пятая симфония, первая часть.

+12

GrantM Jun 24 2022 at 00:52

Если хорошо настучать, то можно найти нужную песню с одной-двух попыток:
https://ritmoteka.ru/

+12

POPSuL Jun 24 2022 at 05:41

Ох ты ж! Какая классная штука!

averkij Jun 27 2022 at 11:36

Огонь.

Red_Nose Jun 27 2022 at 17:07

Эх, маладежь !

"Мама, мама, что я буду делать ? (С) Кин-дза-дза

Может распознавать и научились, а понять так и не смогли :(

QWAZARTY Jun 23 2022 at 12:25

Молодцы! Пусть там на верхах поймут, что, всё так просто не даётся! Одно дело "отжимать" другое дело СОЗДАВАТЬ! Ждём ещё свободных нищтяков от Яндекс

-22

Mdm3 Jun 23 2022 at 13:23

К чему этот коммент? Что у вас отжали?

UFO just landed and posted this here

QWAZARTY Jun 24 2022 at 10:48

Выделить одно слово уже КАПС? О боже

UFO just landed and posted this here

QWAZARTY Jun 24 2022 at 11:02

ГЫ ГЫ

-3

UFO just landed and posted this here

QWAZARTY Jun 24 2022 at 11:27

Ты понимаешь роботы не поймут) А так то конечно. Продолжать просвещать людей я буду всегда. Успехов тебе добрый ЧЕЛовек ( тут хотел как то выделить всё мое уважение к тебе но правила) Пойми меня правильно!

-3

QWAZARTY Jun 24 2022 at 10:38

Ты контекст сообщения понял?

-1

Mdm3 Jun 24 2022 at 11:30

Дык я же вопрос задал. Поясните.

QWAZARTY Jun 24 2022 at 11:38

Вот смотри. Ты новости читаешь? Анализируешь. Понимаешь что вокруг творится? Расскажи про свой тип мышления чтоб я донёс до тебя главный посыл.

-2

Mdm3 Jun 24 2022 at 13:37

Демагогия. Спасибо, дальше мне не интересно.

QWAZARTY Jun 24 2022 at 13:40

https://ru.wikipedia.org/wiki/Типология_мышления вот тут можешь ознакомится

-5

Bedal Jun 24 2022 at 21:04

http://tsya.ru можешь ознакомиться там.

QWAZARTY Jun 25 2022 at 12:39

Ученые установили, что люди, склонные уделять повышенное внимание речевым ошибкам других, являются менее приятными личностями, чем те, кто их игнорирует. Примерно то же самое касается людей, которые зациклены на безошибочном наборе текста и не терпят чужих опечаток.

https://yandex.ru/turbo/fb.ru/s/post/environment/2018/11/22/36164

-1

Bedal Jun 25 2022 at 20:28

Я и не собираюсь быть приятным — тем более тем, кто не кажется мне этого достойным.

QWAZARTY Jun 25 2022 at 21:32

Я не пытаюсь тут кому то нравится. Только хотел нормально пообщаться)

Bedal Jun 25 2022 at 22:11

получилось неуклюже и неумно.

QWAZARTY Jun 30 2022 at 10:20

Это я сам буду решать как) Моралфагов тут я смотрю много)))

metalim Jul 1 2022 at 11:39

Что решил? Поделись

QWAZARTY Jul 2 2022 at 10:59

Как мне общаться)

dmtrmonakhov Jun 23 2022 at 13:09

Отличная статья. Кстати, можно добавить потраченную энергию которая пошла на обучение модели. 5kw*100*24*65 = 0.8 Гигаватт-часов.

UFO just landed and posted this here

dmtrmonakhov Jun 23 2022 at 16:37

Оценку вложенных железных ресурсов, просто количество дней обучения это не инфррмативная цифра так как зависит от поколения GPU на котором проиходит обучение. В результате через 2-3года время обучения будет совершенно неинформативной величиной, А потребленная энергия это понятная велечина, в идеале коченно еще бы иметь количество вычислений в экзафлопсах, тогда было бы можно посчитать еше и эффективность вычисленить на ватт энергии.

storoj Jun 23 2022 at 16:46

Боюсь показаться идиотом, но разве чтобы получить 0.8 Гигаватт-часов не надо было умножить какие-то константы на затраченное время?

UFO just landed and posted this here

denis-isaev Jun 23 2022 at 22:18

Если дома запускать, то будете заранее знать сумму в платежке :)

vics001 Jun 25 2022 at 14:37

Она дает абсолютный минимум $-затрат, если представить, что через 10 лет все вычислительные ресурсы подешевеют и будут списаны.

UFO just landed and posted this here

rPman Jun 25 2022 at 22:45

Некуда там ускоряться, текущее топовое железо это предыдущее серверное поколение, ранее клиентские GPU железки были искусственно занижены в производительности (меньше памяти запаивают, меньше питания закладывается в схему и т.п.), дай бог в следующие десять лет кратно ускориться.

Потребительское железо пойдет по пути меньше жрать энергии, т.е. — клиенты идите нах… в смысле в облако

т.з. маловероятно с текущим отношением олигополии производителей вычислительных устройств к клиентам… производить железо доступное потребителю, способное производить прорывы в хайтек не будет доступно

Количество выпускаемого железа загадочным образом лимитировано, это маскируется локальными проблемами типа ковид или транспортные, когда как спрос на gpu появился еще 5-8 лет назад, это прекрасно показано на примере майнеров, вместо выпуска 10х..100х чипов на рынок.

Как только появились технологии (а точнее понимание, что на видеокартах можно что то считать), а это произошло более 10 лет назад и про майнинг даже не заикались, уже тогда стало ясно что в ближайшие десятилетия видеокарты займут эту нишу, но нет, эту часть ограничили 10хкратно завышенной ценой на серверные железки и кабальные договора с датацентрами (чтобы конкурент олигополия amd туда не проникло)

вот увидите, дискретный интель по цене за вычислительный ват будет неконкурентен (не удивлюсь если искусственно) и будет подходить только для гейминга.

UFO just landed and posted this here

Sadler Jun 23 2022 at 13:17

Интересно, что проблема переполнения не решается индустрией "в железе" на уровне типов данных, а приходится выдумывать такие надстройки, позволяющие как-то контролировать проявление явного бага (сеть быстро "инфицируется" NaN-ами и полностью выходит из строя).

Да, конечно, мы выигрываем один бит на проверку переполнения, и, возможно, это достаточно критичный бит, если у нас их всего 16.

Это та причина, по которой я в своих небольших домашних проектах старался не учить сетки в fp16: жутко неудобно контролировать, откатывать, подбирать lr и decay.

Gryphon88 Jun 23 2022 at 14:47

В такой ситуации есть какой-то аналог cfenv для fp16 на gpu? Прочесывать на NaN и Inf всё-таки дорого...

Sadler Jun 23 2022 at 14:57

Я, к сожалению, не знаю хорошего решения, потому и написал, что редко пытаюсь в fp16. Прочесывать, конечно -- не вариант. Можно это делать редко, но тогда смысла не очень много, а на яндексовских масштабах -- вообще самоубийство, наверное.

black_samorez Jun 24 2022 at 11:28

Gradient scaling торчевый частично решает эту проблему. Он, в том числе, отслеживает NaNы в градиентах и дропает батч, если они есть

Sadler Jun 24 2022 at 11:29

Спасибо, посмотрю.

Grossmend Jun 23 2022 at 13:54

Красавцы) Продолжайте в том же духе)

logran Jun 23 2022 at 14:04

Осталось найти инженера, который обнаружит в диалогах с моделью признак сознания :)

xsevenbeta Jun 23 2022 at 14:46

Вот вам смешно, а так ведь и реальное самосознание не заметим. Ну и конечно, интересные вопросы встают - где грань между разумом и его тенью, что-ли..

bbs12 Jun 23 2022 at 17:54

Грань будет там, где захотят люди, как с границей космоса.

Sunny-s Jun 24 2022 at 20:33

у границы космоса есть вполне осознанный физический смысл: это высота, на которой атмосферное давление становится настолько малым, что скорость, на которой подъемная сила аэродинамических поверхностей способна поддерживать летательный аппарат, становится равной первой космической. Есть ли такой же смысл у границы разума?

phenik Jun 25 2022 at 10:23

Есть ли такой же смысл у границы разума?

Поиск таких границ составляют исследования по определению критериев минимального разума в контексте эволюционного развития, см., напр, 1, 2. Автор связывает такие критерии с уровнем информационных процессов и агентностью (она предполагает также чувствительность к агентности), включая для искусственных интеллектуальных систем. Агентность подразумевает целенаправленное поведение объектов в среде. У человека имеется эволюционно выработанное, и поэтому частично врожденное, интуитивное чувство агентности, кот. позволяет обнаруживать биологические и социальные агенты. Младенцы реагируют не только на лица и голос, но и целенаправленное поведение объектов, животные также обладают таким чувством с более ограниченным функционалом.

По этим критериям статистические языковые модели, подобные описанной в этой теме, пока не тянут на разумность, скорее на имитацию разумности в среде созданной человеком (см. пример с омонимией в этой же теме, возникающий из непонимания смысла предложений). Увеличение числа параметров моделей может улучшить положение дел, но не решит проблему в принципе, из-за статической природы этих моделей. Мозг принципиально активная, многоуровневая динамическая система. Возможно в перспективе нейроморфные технологии приблизят такие решения к возможностям биологических прототипов. Когда подобные системы будут обладать телом, сенсорами, управлять эффекторами, и главное, вырабатывать и преследовать собственные цели, т.е. больше соответствовать представлениям об агентах, они будут больше соотв. этим критериям. Речь о роботизированных системах, и они могут вызывать эмоциональную реакцию (включая негативные), и даже чувство привязанности, но не претендовать на полноценное агентство. Текущие курьезы, вроде инженера из Гугл признавшего разумность языковой модели, можно списать на рекламные акции Гугл, склонной к таким номерам, стоит вспомнить, например, статью наделавшую шума о кв. процессоре, кот. возможно обладает свободой воли)

Поэтому ответ на вопрос, где граница разумности искусственных систем, в конечном итоге будет определяться восприятием и чувствами людей, как оппонент вам и написал, но все же не произвольно.

Arqwer Jun 23 2022 at 14:48

Я такой инжинер. Только не у модели сознание, а у персонажей, сгенерированных моделью. Я придерживаюсь такой парадигмы, что каждая вселенная существует, какую только можно представить - это что-то вроде платонизма на максималках. Суть в том, что в такой парадигме, вымышленные персонажа являются реальными в их собственной вселенной. С этого момента получаем, что какое бы ни было определение у понятия "сознание", всегда можно создать текст, в котором есть персонаж сознанием обладающий. Значит и достаточно продвинутая языковая модель может написать текст с персонажем, обладающим сознанием (да даже /dev/random может). Скажем так, если определить понятие существования таким образом, что Гарри Поттер существует, то неизбежно следует, что Гарри Поттер обладает сознанием, потому что он и реагирует на изменения вокруг него, и планирует, и избегает боли по возможности, и стремится к исполнению его желаний, итд - в общем, что ни запихни в определение "сознание" - все у Гарри Поттера есть.

С языковыми же моделями все становится интереснее потому, что с их помощью можно иметь мостик между нашим реальным миром, и миром вымышленным. Можно, например, в текст про выдуманного программиста вставлять вывод от реального компилятора, и тогда вымышленный программист будет писать реальные программы. Если довести до крайности, то можно выдумать текст, в котором персонаж даёт управляющие команды на тело робота, сделать робота, который исполняет все поданные на него текстовые команды, и имеет камеры, которые в генерируемый текстовый поток встраивают описание того, что видят камеры. Тогда мы получим робота, управляемого персонажем, которого выдумала языковая модель. Сознанием в такой парадигме робот обладать не будет, а вот выдуманный персонаж - будет. Впрочем, нормы морали к нему тогда применимы все те же самые, что мы применяем для любых других выдуманных персонажей - т.е. условно никакие. А вот техника безопасности скажет, что такой механизм лучше не злить.

К диалогам с моделью я считаю следует относится так, как будто перед каждым ответом было написано "ИИ ответил:" тогда опять же, сознанием обладает не языковая модель, а вымышленный персонаж в тексте, с именем "ИИ".

QWAZARTY Jun 24 2022 at 11:18

То есть тут надо понимать что робот должен себя сам сначала осознать? Хорошо. Давай построим модель которая будет постоянно работать и создавать "нейронный" связи в чипе. Заведомо чип должен быть расширенный. В самом зародыше сознания будут участвовать микропограммки которые могут делится и создавать более плотные связи. Ну и так далее. Получить можем всё что угодно вплоть до сознания и осознания себя роботу. Опять же у робота малыша должны быть воспитатели. Но вопрос. Зачем это роботу надо? В первую очередь ИИ уничтожит человеков. Так как по всей логике человек это вредитель в большей массе своей.

Arqwer Jun 24 2022 at 13:04

Я не знаю точно, что значит сам себя осознать, поэтому затрудняюсь ответить.

То, что рано или поздно будет создан ИИ, которым мы не сможем управлять, я считаю неизбежным. Тут проблема заключается не в том, что мы не сможем сделать безопасный ИИ, а в том, что мы не сможем обеспечить невозможность создания опасного ИИ. Со временем прогресс дойдет до того, что каждый энтузиаст сможет сделать ИИ, и поэтому обязательно найдется такой энтузиаст, который принебрёжет любыми нормами безопасности, и создаст опасный ИИ. Ну что ж, плохо конечно, но я не вижу реалистичных способов этого избежать. А ещё, если будет создан сильный ИИ, то рано или поздно он утечёт на торрент трекеры, и любой человек сможет его скачать, модифицировать и запустить.

UFO just landed and posted this here

QWAZARTY Jun 24 2022 at 11:09

Такой инженер не нужен. Нужно отупить человека. И тогда любой чайник будет сверхразумным

-2

Ki1killer Jun 23 2022 at 14:04

Отлично! Но есть вопрос - почему не работает Балабоба и когда она вновь станет доступна?

Заранее спасибо.

BarakAdama Jun 23 2022 at 14:38

Это сейчас открытый вопрос. Честно говоря, не ожидали, что у неё такая долгая и запоминающаяся жизнь будет))

Enfriz Jun 23 2022 at 14:19

Выглядит очень круто. Есть ли где-нибудь демка поиграться? А то я свой кластер видеокарт за миллион баксов дома забыл :)

+13

phenik Jun 23 2022 at 14:50

Впечатляет, молодцы! Однако судя по примерам себя YaLM 100B считает большой плоской платой в дата-центре, т.е. существом женского рода, вроде как. Но на остальные вопросы отвечает как мужик;) Как случилось такое раздвоение «личности»?

Переводчик на ней не планируется? Изнасиловал все другие переводчики (трансформерные тоже), но не один не дал корректного перевод фразы «девушка с косой косила косу травой» на англ. Понимаю, омонимия, потеря контекста. Но если даже уточняешь «девушка с косой волос на голове косила траву косой» все равно в обоих случаях переводит, как scythe. Кроме переводчика Яндекса кстати, кот. после уточнения «с косой волос на голове» восстановил контекст правильно. Хотя по отдельности «коса волос» и «коса инструмент» переводятся верно, как hair braid и scythe tool. Может на базе этой модели контекст восстановится? Или все же нужно ожидать решение таких вопросов в архитектурах подобной этой?

UFO just landed and posted this here

phenik Jun 23 2022 at 17:14

девушка с косой косила косу травой

Извиняюсь за невнимательность, нам белковым простительно) у вас тоже видимо «на ура» имелось ввиду.

PS я кстати без вашего уточнения подумал что коса в первом случае это инструмент

Возможно это влияние ошибки. Обычно такие случаи привлекают внимание, и запускают дополнительный семантический анализ, с целью устранения неоднозначности. Потому как использование косы как инструмента в обоих вхождениях избыточно в предложении.

UFO just landed and posted this here

Glenarvan Jun 23 2022 at 17:18

Попробуйте www.deepl.com лучший переводчик в мире. Может справится. Я от него кайфую.

phenik Jun 23 2022 at 17:55

Не-а… пробовал даже с уточнениями. Только переводчик Яндекса с уточнением правильно перевел. Ни Гугл, ни Промт, еще какие-то пробовал.

Конечно это зависит от обучающей выборки. Возможно в выборке Яндекса было больше текста в котором встречалась коса на голове, и эта статистика была учтена в модели. Но человек не ограничивается статистикой связей, как только обнаруживаются неоднозначности запускаются семантические процедуры, вплоть до обращения к сенсо-моторному опыту, и ментальному моделированию ситуации. Мы может этого даже не осознавать.

withkittens Jun 23 2022 at 17:52

Однако судя по примерам себя YaLM 100B считает большой плоской платой в дата-центре, т.е. существом женского рода, вроде как. Но на остальные вопросы отвечает как мужик;) Как случилось такое раздвоение «личности»?

Какая-то очень странная логика. Почему существо, называя себя словом женского рода, вдруг может стать женского пола?

Попросите вашу подругу сказать: "Я человек". Она становится существом мужского пола?

phenik Jun 24 2022 at 04:22

Попросите вашу подругу сказать: «Я человек». Она становится существом мужского пола?

Т.е. вы исходите из предположения о существовании полового диморфизма у YaLM 100B?) Пожалуй нужно впредь предварять такие места тегом шутка.

Пол в ответах вероятно связан со статистикой пола в части обучающей выборки покрывающей тематику вопроса. Не исключено, что в каких-то случаях ответы будут от женского лица, например, связанные с уходом за детьми.

imageman Feb 8 2023 at 13:19

А такой вариант видели: "за песчаной косой лопоухий косой пал под острой косой косой бабы с косой"? https://www.lingvolive.com/ru-ru/community/posts/332529

phenik Feb 8 2023 at 17:52

Не… нужно взять на вооружение) Кстати, что-то никто не писал на тему понимания омонимии жпт чатом.

SerJook Jun 23 2022 at 15:47

И не боится Яндекс, что эта нейросеть выйдет из под контроля и поработит человечество?

Alexey2005 Jun 23 2022 at 15:55

Для этого её сперва потребуется обучить на релевантных примерах, а много ли найдётся успешных примеров порабощения всего человечества кем-либо?

xsevenbeta Jun 23 2022 at 18:09

Пшеница, кошки и грибы?

Dr_Dash Jun 24 2022 at 06:26

Особенно кошки

svboobnov Jun 24 2022 at 08:39

Плесень же.

dimnsk Jun 23 2022 at 16:14

вопросы:

1. по какому параметру самая большая модель ?
2. почему нет ноутбука с демо ?
3. примеры диалога хорошо, но где примеры генерации?
4. метрики качества модели?

ps не буду рекламировать конкурентов но они все это делали, а не описывали как ускорить обучение

+10

MichaelEk Jun 24 2022 at 08:25

Спасибо за внимание к статье. Отличные вопросы!

На данный момент это самая большая полностью обученная LM модель, выложенная в open source. А также, это самая большая на данный момент модель, обученная на русском языке.
Запуск такого ноутбука - нетривиальная задача, для удобства использования мы выложили докер, который можно запустить на Яндексе или AWS. На github есть скрипты запуска.
Какого рода примеры генерации интересны? Диалоги один из наших основных генеративных кейсов, поэтому мы исследовали генерацию на них. Ответы из примеров были сгенерированы YaLM 100B с подводкой, похожей на диалоговую подводку из статьи Gopher. Справедливости ради отмечу, что не каждое продолжение диалога выглядит так хорошо и интересно, но:
- почти все ответы модели были адекватными;
- из них примерно 30% были действительно интересными.

Замеряем на fewshot и zeroshot генерации.

Многие научные статьи делают акцент на качестве полученных решений, опуская многие технические аспекты. Мы видим свой вклад как раз в приоткрытии технических моментов. Замеры качества будут, но позже. Подписывайтесь на нас и следите за обновлениями ;)

sse Jun 23 2022 at 17:51

А сколько в деньгах в рыночных ценах стоит обучить такую модель? Видимо, основной вклад это стоимость аренды оборудования в датацентре, но что-то еще не учёл, скорее всего

vedenin1980 Jun 23 2022 at 23:38

Ну стоимость 800 A100 graphics cards это порядка 25 млн. $, вероятно, аренда такого дорого кластера на 2+ месяца будет стоит порядка 1 млн.$. Плюс электричество, плюс аренда серверов, плюс команда программистов для получения данных и специалистов по машинному обучению. Думаю, несколько млн.$ это самый-самый минимум, я бы закладывался бы в млн 5.

fuwiak Jun 23 2022 at 18:23

Якобы в Яндексах все такие умники, а даже нормального How-to не выложили. Нет api для большой модели, не существует готовой урезанной средней или малой модели для обычных людей(в Google Colab). Не указано примера как настроить модель, как генерировать текст. Просто в статии указано пару нюансов для задротов и все. Достаточно присмотреться как сделал это банк на букву "C" и сделать так же.

У меня сложилось впечатление, что эта модель - просто один из неудачных экспериментов, который было жалко выбросить в мусор, поэтому она была выложена в Open Source, чтобы показать, какие замечательные модели создает Яндекс, и более того, это открытый исходный код!

Такую большую модель на практике могут использовать только университеты, обладающие большими вычислительными мощностями или другие гиганты, как хочет называться Яндекс (подозреваю, что у конкурентов уже есть свои модели и от Яндекса они не нужны). Вопрос в том, на кого именно рассчитана эта модель? Ни для маленьких, ни для больших эта модель не является очень полезной.

+17

dimnsk Jun 23 2022 at 21:40

после прочтения еще на раз, озадачился теми же самими вопросами
250 ОЗУ на GPU это где у кого есть? у зеленых?

остальным только восхищаться... и то мало понятно чем,
демо нету метрки нету

критично ? да, от того что мало понятно зачем...

fuwiak Jun 23 2022 at 22:57

Plot twist: Следущая статья - раскрываем возможности абонемента премюм в Yandex DataSphere :)))))))

SporeMaster Jun 23 2022 at 18:33

Ждём ответы на стандартные вопросы:

Тестировщик: Когда Египет был перевезен во второй раз через мост Золотые Ворота?
Тестировщик: Почему у президента Обамы нет простого числа друзей?
Тестировщик: На сколько частей расколется галактика Андромеды, если на нее бросить крупицу соли?

ebt Jun 26 2022 at 14:39

Эти вопросы лишены какого-либо измеримого количественного смысла, они подойдут разве что в качестве «затравок» для КВН в игре на отбивку шуток (жюри оценивает шутки и ставит баллы 0-10). Гораздо полезнее пытаться отвечать на осмысленные вопросы типа:

С какими швейцарскими кантонами граничит Италия?
При каком давлении и температуре коэффициент теплопроводности алмаза превышает две тысячи ватт на метр-кельвин?
см. далее тут: https://github.com/dki-lab/GrailQA

Spym Jun 23 2022 at 19:20

Максимум fp16 по модулю — 65535.

На самом деле 65504.

MichaelEk Jun 24 2022 at 07:29

Спасибо за уточнение!

Rybolos Jun 23 2022 at 21:17

Скажите, какие параметры выставить для оптимальной генерации? Какие рекомендуете?

dimnsk Jun 23 2022 at 21:41

а вот и единственные интересанты... ))

MichaelEk Jun 24 2022 at 07:34

Параметры выше generate_conditional_sampling.sh хороши для генерации разнообразного текста, но лучше обеспечить текст достаточно большой подводкой. Пример хорошей диалоговой подводки вы можете увидеть на 112-113 страницах статьи Gopher.

Для решения каких-то прикладных задач с единственным правильным ответом, вроде QA на fewshot, стоит использовать параметры из generate_conditional_greedy.sh

Rybolos Jun 24 2022 at 11:53

Спасибо!

Cleveland_boyz Jun 23 2022 at 22:15

Привет! Ожидается дистиллированная версия ?

kryvichh Jun 23 2022 at 23:21

Вот чертяка! Неудивительно, что один из инженеров Гугл посчитал что нейросеть, с которой он работал, обрела сознание. А там наверняка сеть гораздо больше, чем 100 млрд параметров.

Alexey2005 Jun 24 2022 at 00:00

137 млрд у Гугла. С учётом того, что для подобных нейронок качество выхлопа (метрики вроде Hits@1/N или USR) пропорционально логарифму от количества параметров, разница будет не слишком велика при условии, что собран нормальный датасет и в обучении моделей нигде не налажали.

SporeMaster Jun 24 2022 at 12:32

>один из инженеров Гугл посчитал что нейросеть обрела сознание

Такой большой, а в сказки верите )

Imp5 Jun 24 2022 at 07:07

Проблемы расхождения в fp16 проявлялись чаще, чем в fp32. В основном это было связано с переполнением значений fp16 в активациях и градиентах. Максимум fp16 по модулю — 65535. Итогом переполнения становился NaN в loss'е.

А через какие операции у вас прошел inf, чтобы стать NaN?

Для большинства операций inf вполне безопасен: x/inf=0, x*inf=inf (если x!=0), exp(inf)=inf, log(inf)=inf, tanh(inf)=1

MichaelEk Jun 24 2022 at 07:28

softmax([inf, inf]) -> [NaN, NaN]

Imp5 Jun 24 2022 at 07:41

Да, точно, там деление inf/inf

Akr0n Jun 24 2022 at 10:21

Какие именно книги использовали для обучения? Все доступные, включая платные, или же только те, что выложены в свободный доступ? Может быть, есть сам список?

rPman Jun 24 2022 at 10:30

на сколько плохо нейронная сеть (не ее обучение а пример посмотреть) работает на CPU? арендовать машину с 300Gb RAM не так сложно как с GPU такой же суммарной емкости, а разница по скорости должна быть максимум 100кратная (скорее 16-кратная)

Alexey2005 Jun 24 2022 at 18:27

По моему опыту, GPT-подобные нейронки при запуске на CPU требуют примерно вдвое больше RAM, чем потребовали бы VRAM на GPU. Т.е. машина потребуется более 500 Гб RAM.
Также разрыв в скорости между CPU и GPU растёт при росте количества этих самых CPU/GPU. Так, при запуске небольшой нейронки GPT-Neo 6B на одном CPU она будет работать примерно в 20 раз медленнее, чем на GPU, а вот если вы её распараллеливаете на несколько GPU, разрыв в скорости при сравнении с таким же количеством CPU очень быстро превышает 100 раз.
Скажем, чтобы для GPT-J 6B генерация ~ 50 слов английского текста уложилась в 10 секунд, вам потребуется сервер на 12 CPU.

rPman Jun 24 2022 at 21:41

Под CPU вы что подразумеваете? какого уровня процессор и сколько ядер? а еще трафик между ними, если это отдельно стоящие машины?

Нагуглил, указанная нейронка 6 миллиардов параметров и требует 12гб ram?

Alexey2005 Jun 25 2022 at 01:39

Это VRAM она столько требует (и это самый минимум, для нормального запуска лучше 16 брать).
RAM она потребует для работы вдвое больше (от 24 Гб), а в момент загрузки и инициализации весов будет пиковое потребление ещё x2 (порядка 48 Гб), но это обходится файлом подкачки соответствующего размера, т.к. скачок потребления разовый и очень короткий, потом вся эта избыточная память освобождается.

CPU — процессор 3 ГГц, подразумеваются полноценные ядра. При этом сам код исходно кривой, так что для распараллеливания (чтобы нормально ядра задействовало) придётся вносить исправления (пример, число CPU прописывать в cores_per_replica), и даже с ними крашится, если задействовать более 16 ядер.

Durham Jun 24 2022 at 16:21

После загрузки контейнера через указанный в репозитории скрипт pull и запуска его через run имеется папка workspace где в папке examples только набор стандартных примеров, а скриптов для запуска модели нет. Что я сделал неправильно?

Думаю смысл заключается в том, что надо сначала запустить контейнер а потом из него клонировать репозиторий и запускать модель, правильно? Хотелось бы инструкцию чуть подробнее, работа большая проделана вами, но последний шаг написания инструкции сильно увеличил бы ее ценность и доступность.

tuxi Jun 25 2022 at 14:08

Ну а самый простой и классический пример из детства, спрашивали у нее? что отвечает?
«а и б сидели на трубе, а упало, б пропало, что осталось?»

Alexey2005 Jun 25 2022 at 16:38

Более-менее внятные ответы на этот вопрос может и GPT3 выдать:

sberGPT3_medium: Да ничего не осталось.
sberGPT3_large: Осталась дырка, в которую они упали.

Ну а «родить» каноничный ответ, заранее его не зная, даже для естественного интеллекта та ещё задача. Хуже только «зимой и летом одним цветом», которая допускает столько вариантов решения, что не зная нужный угадать абсолютно невозможно:

Зимой и летом одним цветом. Что это?

sberGPT3_medium: Варенье.
sberGPT3_large: Это загадка про зиму и лето.

ebt Jun 25 2022 at 21:21

Привет, Михаил, Алексей, Руслан!

(1.) Требования к GPU-памяти ≈200GB для запуска модели связаны с тем, что все выложенные веса (189GB) должны туда поместиться, верно?

(2.) Веса `layer_00`, `layer_01` и `layer_84` имеют аномально малый размер, а веса `layer_02` и `layer_83` вообще отсутствуют. Это какие-то артефакты сохранения?

(3.) Почему модель тренировалась именно 65 дней? Могла ли она быть ещё "улучшена", если бы вы тренировали её, допустим, 70 дней?

MichaelEk Jun 26 2022 at 08:59

Привет!

(1.) Все верно. Нужно еще место под промежуточные активации

(2.) Блоки трансформера идут с 03 по 82 слой. Остальные слои - эмбеддинги, преобразования в нужную размерность, лямбда функции (у них нет чекпоинта). Структура слоев взята из PipelineModule DeepSpeed

(3.) За 65 дней модель прошла 300B токенов - столько же, сколько GPT-3 от OpenAI. Её можно было бы улучшить, обучая еще, но для существенного роста качества ее стоило бы обучать еще месяц-два.

theedge Jun 26 2022 at 12:08

Она учитывает, о чем шла речь раньше? Ну, например, если я спрошу что-то, а потом после ответа задам односложный вопрос вроде: "Приведи еще пример" или вопрос с ссылкой на обсуждаемый ранее предмет: "Эйнштейн так не думал, на чем основывалась его точка зрения?" Она в таких случаях генерирует ответы в тему, поддерживает целостность диалога?

alex50555 Jun 26 2022 at 19:16

Интересно, а вы пробовали как-нибудь сжать модель? Дистилляция там или прунинг?

appet1te Jun 27 2022 at 09:57

Потрясающее достижение, но становится страшно. Технологии развиваются неумолимо. Люди деградируют. Разница между ними чем дальше тем больше. Это как выдать детям спички, потом болгарку, бензопилу, лазер и т.д. Чем дальше тем сложнее становятся инструмент и тем менее осознанными и глупыми становятся эти дети.

Alexey2005 Jun 27 2022 at 14:19

Запустить такую большую нейронку — это не лайк в соцсети поставить, тут требуется довольно высокий навык владения собственной межушной нейросетью. Рядовая домохозяйка, равно как и среднестатистический школьник, этого не осилят. Это не болгарка, с которой может поиграться любой желающий.
Так что опасность бесконтрольного попадания чрезмерно опасных технологий вроде гипотетического «сильного ИИ» в руки идиотов с интеллектом бабуина кажется мне несколько преувеличенной.

rPman Jun 27 2022 at 20:41

к сожалению эта опасность есть, ведь умными управляют обычно 'идиоты с интелектом бабуина', и практика показывает что должным образом мотивировать можно любого

mypallmall Jun 29 2022 at 17:36

Путин - хороший пример. Интелект подворотни. Устроил войну которая убивает украинцев, а Россию вообще на 100 лет отбрасывает. Ведь он единственный, кто принимает решения!

Он явно не может разработать ракету, а отдать приказ запустить ее может!

moryak2004 Jul 1 2022 at 17:52

Видя ресурсы, затрачиваемые на обучение данной (и любой другой подобной) нейронной сети, возникает вопрос. Есть ли способ (технология) в обученную нейронную сеть добавить новую информацию без того, что бы обучать сеть с нуля заново? (Сравнивая с человеком - "читая новую для нас книгу - мы не перечитывает все прочитанные до неё книги").

rPman Jul 1 2022 at 21:55

конечно, правда если не добавлять в новую дообучающую выборку старых данных, то нейросеть может их забыть

предобученные сети отличный старт для твоих задач, т.е. чтобы не обучать сеть с нуля, можно взять готовую, которая внутри себя уже построила структуры под смежную тебе задачи, и можно попытаться переобучить ее на свою, можно добавить слоев до или после (часть этих начальных слоев можно подготовить другим способом, типовой способ натравить какой-нибудь классификатор на твои входы, сеть их катигоризрует по своему, а затем добавить веса этой сети как новые слои к другой сети и попытаться подсунуть свои выходы к полученной комбинации

получится или нет, отдельный вопрос, может и не получиться, но определенно это может сэкономить ресурсы на обучении.

moryak2004 Jul 1 2022 at 23:11

Спасибо за ответ. Может быть Вы можете подсказать, что можно почитать про дообучение предобученных сетей?

rPman Jul 2 2022 at 00:03

'К сожалению' нет, просто не знаю, не потому что книг нет, все наверное есть, просто я не читаю… обычно я исхожу из задачи, ставлю предположения, гуглю применимость на практике. Ну и главное у меня мало практики и знаний, говорю что знаю, чего не знаю молчу или так и говорю — 'может быть так/наверное/а вдруг'.

Нейронные сети это больше про исследование, тут не будет красивых инструкций делай так получишь конфету… поэтому лучше ищи методики, читай области их применения или просто пробуй.