Pull to refresh

Comments 20

Ждём триллион параметров в 2021, а выкладывать не хотят опять ради хайпа

Что за название статьи? Почему оно не отражает суть совершенно? Ведь в оригинальной публикации сразу в названии отражена суть достижения «Language Models are Few-Shot Learners». То что там сколько то параметров итп — вторично. Если бы параметров было бы в 10 раз больше, это было бы более впечатляющее достижение? А если бы такой результат был бы получен для модели в которой 100 раз меньше параметров, то наверное он не стоил бы публикации?

Для вас вторично, может потому, что вам тема не особо интересна?


Количество параметров косвенно показывает перспективы. Если бы было в сто раз меньше параметров, это было бы огромное достижение. Сейчас люди склоняются к тому, что это нереально (как минимум с имеющимися проходами).


А если бы параметров было бы в 10 раз больше, то это было бы важное достижение в деле обучения таких огромных моделей (это сложнее, чем маленькие), но именно результат обучения в этом случае выглядел бы совсем грустно.

Тема мне интересна, и препринт я видел раньше чем эту заметку, но мне не понравилось что название этой заметки, мягко говоря, искажает суть главного достижения. Я не утверждаю что трейн настолько больших моделей сам по себе не является значимым достижением. Но куда более важным является что с ростом числа параметров произошли качественные улучшения. Но названия заметки склоняет к мысли что достижения именно в числе параметров «OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров». Т.е. в духе — «советские роботы — самые большие роботы в мире».
С таким же успехом можно было бы вынести в название размер батча, количество видеокарт/TPU задействованных в трейне или потраченного электричества:
«OpenAI представила алгоритм для текстов GPT-3, который обучили на 1536 GPU»
И представьте ситуацию, что эти исследователи натрейнили настолько большую модель, но она мало чем бы отличалась от предыдущих, давала прирост доли процентов в бенчмарках и все. Судя по всему, названия заметки относится скорее к такой ситуации.
Вот например неплохое видео с разбором этой статьи. Там автор тоже отмечает масштаб модели, но намного больше акцентирует внимание на качественных отличиях

Имхо, в качестве новости все достаточно хорошо описано. Число параметров о многом говорит для тех, кто следит за этой эпопеей. Ваше замечание тоже справедливо, например о попытках обучения моделей с миллиардом параметров на китайских мощностях заявлялось еще несколько лет назад (но без продолжения, видимо ничего толком не вышло).


Работа с few-shot это не основное достижение GPT-3. Это скорее предмет обсуждения, что-то неожиданное, что появилось в этой большой модели. Не факт, что со временем значение этого достижения не будет пересмотрено в меньшую сторону. Это как с GPT/GPT-2 — на момент появления казалось большим прорывом, но сейчас качество генерации ими текста уже не воспринимается таким уж "интеллектуальным".


Но сам по себе качественный рост у 175 B модели при работе с Few-Shot примерами очень любопытен. Я еще на первых GPT заметил, что они иногда выдавали редко используемые факты. Какие-то имена, события, редко используемые словесные обороты. Как будто модель запомнила их, что для нейросетей, в общем-то нехарактерно. Маленькие сети работают скорее как статистические модели, лишь изредка проявляя что-то большее.


Это как если бы вы запомнили что-то из прочитанной книги, а потом применили это полученное знание в разговоре к месту. Тут ключевой момент, что это единичный выделенный факт/знание, и что он применен к месту. Признак сильного интеллекта.


GPT-3 развила эту способность. И теперь способна выделяет эти факты из нескольких показанных ей примеров. Это очень воодушевляет. Судя по всему, эта нейросетевая архитектура постепенно движется в сторону сильного интеллекта. Но, повторюсь, это лишь предмет обсуждения, догадки, надежды. Главное достижение GPT-3 все же обучение (качественное) 175 млрд модели. У которой именно благодаря размеру, что доказывается графиками в статье, проявились новые любопытные свойства.


Так что с заголовком новости все ок, не придирайтесь )

Исследователи пока не представили саму модель, так как опасаются, что ее навыки могут быть использованы во вред.


Второй раз один и тот же трюк не работает. Ждем где-нибудь через полгода полную модель.
Я всё жду когда нормальный переводчик появится, качеством получше чем гуглтранслейт, а они вместо этого спамбота делают, который окончательно замусорит интернет публикациями на страницах сайтов. Другого достойного применения подобной новинки я как то не вижу.

этот тоже не так чтобы идеальный. А иногда просто шокирует :) И постоянно путает "вы" и "ты" иногда в одном предложении

А жалко, я бы готов был, думаю как и многие другие, даже на платную версию, чтобы нормальный текст читать или скажем автоматом получить англоязычную версию сайта без ляпов «алиэкспресса»
Другого достойного применения подобной новинки я как то не вижу.

aidungeon.io — имхо вполне годное применение.
И не всегда надо, чтобы было практическое, ориентированное на зашибание бабок, применение. Иногда достаточно того, что это весело или может применяться в искусстве. Те же нейро-тексты для нейро-музыки из jukebox создать.
175 млрд параметров или в 2 раза больше — осмысленности тексту не прибавят.
… пользователям становится все сложнее отличать такие тексты.
Текст может быть со статистически верно расставленными словами и при этом быть бесполезным. Да и сами люди тоже иногда пишут всякий бред или «воду», но это другая проблема.

Кроме "сложнее отличать" улучшилась точность на задачах без примеров, с одним примером и несколькими примерами (тюнинг весов сети под задачу не использовался).


Без примеров: "3432+2121=". С одним примером. "2+2=4 9837+2340=" и так далее

Такс, он сможет дать краткое описание всех художественных книг? Когда-то мечтал такое сам написать

Ага :). Часто с этим не справляются даже авторы попурри-книг.
Скорее краткий пересказ со спойлерами.
Я как читаю статьи про достижения OpenAI и стоимости обучения их моделей, у меня всегда возникает один и тот же вопрос. А кто их финансирует? Может кто подскажет, как эти разработки окупаются?
Обученная GPT-3 в максимальной комплектации (175B) при генерации 1 страницы текста превратит в тепло 4 вт*ч э/энергии.
«Война и мир» 5кВт*ч по объему без учета ценности содержания.
Получаем ориентиры стоимости низкоквалифицированной офисной деятельности в энерговалюте.
Sign up to leave a comment.

Other news