Comments 20
Ждём триллион параметров в 2021, а выкладывать не хотят опять ради хайпа
Для вас вторично, может потому, что вам тема не особо интересна?
Количество параметров косвенно показывает перспективы. Если бы было в сто раз меньше параметров, это было бы огромное достижение. Сейчас люди склоняются к тому, что это нереально (как минимум с имеющимися проходами).
А если бы параметров было бы в 10 раз больше, то это было бы важное достижение в деле обучения таких огромных моделей (это сложнее, чем маленькие), но именно результат обучения в этом случае выглядел бы совсем грустно.
С таким же успехом можно было бы вынести в название размер батча, количество видеокарт/TPU задействованных в трейне или потраченного электричества:
«OpenAI представила алгоритм для текстов GPT-3, который обучили на 1536 GPU»И представьте ситуацию, что эти исследователи натрейнили настолько большую модель, но она мало чем бы отличалась от предыдущих, давала прирост доли процентов в бенчмарках и все. Судя по всему, названия заметки относится скорее к такой ситуации.
Вот например неплохое видео с разбором этой статьи. Там автор тоже отмечает масштаб модели, но намного больше акцентирует внимание на качественных отличиях
Имхо, в качестве новости все достаточно хорошо описано. Число параметров о многом говорит для тех, кто следит за этой эпопеей. Ваше замечание тоже справедливо, например о попытках обучения моделей с миллиардом параметров на китайских мощностях заявлялось еще несколько лет назад (но без продолжения, видимо ничего толком не вышло).
Работа с few-shot это не основное достижение GPT-3. Это скорее предмет обсуждения, что-то неожиданное, что появилось в этой большой модели. Не факт, что со временем значение этого достижения не будет пересмотрено в меньшую сторону. Это как с GPT/GPT-2 — на момент появления казалось большим прорывом, но сейчас качество генерации ими текста уже не воспринимается таким уж "интеллектуальным".
Но сам по себе качественный рост у 175 B модели при работе с Few-Shot примерами очень любопытен. Я еще на первых GPT заметил, что они иногда выдавали редко используемые факты. Какие-то имена, события, редко используемые словесные обороты. Как будто модель запомнила их, что для нейросетей, в общем-то нехарактерно. Маленькие сети работают скорее как статистические модели, лишь изредка проявляя что-то большее.
Это как если бы вы запомнили что-то из прочитанной книги, а потом применили это полученное знание в разговоре к месту. Тут ключевой момент, что это единичный выделенный факт/знание, и что он применен к месту. Признак сильного интеллекта.
GPT-3 развила эту способность. И теперь способна выделяет эти факты из нескольких показанных ей примеров. Это очень воодушевляет. Судя по всему, эта нейросетевая архитектура постепенно движется в сторону сильного интеллекта. Но, повторюсь, это лишь предмет обсуждения, догадки, надежды. Главное достижение GPT-3 все же обучение (качественное) 175 млрд модели. У которой именно благодаря размеру, что доказывается графиками в статье, проявились новые любопытные свойства.
Так что с заголовком новости все ок, не придирайтесь )
Исследователи пока не представили саму модель, так как опасаются, что ее навыки могут быть использованы во вред.
Второй раз один и тот же трюк не работает. Ждем где-нибудь через полгода полную модель.
этот тоже не так чтобы идеальный. А иногда просто шокирует :) И постоянно путает "вы" и "ты" иногда в одном предложении
Другого достойного применения подобной новинки я как то не вижу.
aidungeon.io — имхо вполне годное применение.
И не всегда надо, чтобы было практическое, ориентированное на зашибание бабок, применение. Иногда достаточно того, что это весело или может применяться в искусстве. Те же нейро-тексты для нейро-музыки из jukebox создать.
… пользователям становится все сложнее отличать такие тексты.Текст может быть со статистически верно расставленными словами и при этом быть бесполезным. Да и сами люди тоже иногда пишут всякий бред или «воду», но это другая проблема.
Такс, он сможет дать краткое описание всех художественных книг? Когда-то мечтал такое сам написать
«Война и мир» 5кВт*ч по объему без учета ценности содержания.
Получаем ориентиры стоимости низкоквалифицированной офисной деятельности в энерговалюте.
OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров