Pull to refresh

Comments 5

Как сказано в статье, для GPT-4 будет использовано примерно в 10 раз больше данных, чем для GPT-3. Интересно, где разработчики возьмут столько данных. Насколько мне известно, для GPT-3 уже использовали все доступные книги, пришлось даже парсить веб, чтобы добрать нужное количество параметров. В итоге, 80% тренировочных данных в GPT-3 взято из веба. Тогда в GPT-4 будет 98% данных из веба, могу представить, чему он там "научится" ...

> чему он там "научится"

самому главному -- человеческой натуре

А книги -- это цензурированное и отфильтрованное проявление культуры в довольно узком спектре

Не думаю, что он научится человеческой натуре, поскольку нужно чтобы он еще почувствовал, что стоит за всеми этими словами. Просто наберет статистику, чтобы достаточно адекватно продолжать фразу. Однако, если книги - это много раз модерированное и отфильтрованное знание, на основе которого можно получать целые куски адекватной модели реальности, то веб - это извините, помойка. Есть конечно исключения, в виде Хабра, но в большинстве случаев веб - это маркетинговаый мусор, срач и гигантское количество ботов. У человека есть внутренний фильтр, основанный на здравом смысле, при помощи которого мы фильтруем мусор. И то не всегда успешно. А GPT-4 просто наберет статистику и получится СЕО оптимизированный генератор "контента".

Голую модель всё равно в прикладных задачах никто использовать не будет, скорее всего GPT-4 можно будет оперативно и эффективно файнтюнить. Очень грубо говоря, можно добавить новую связь любому контексту с положительным, либо с отрицательным окрасом. 10 раз скормить ей на вход фразу "Гуманизм - хорошо", пока выход не согласуется с этим утверждением. Ну это прям донельзя грубо. Тут бы ещё скормить большое количество данных с рассуждениями до гуманизму, а то решит ещё что гуманнее всего уничтожить этих ваших человеков.

Вспомнил историю про того бота от кажется Майкрософта, которого пользователи за пару дней дообучили на расиста.

Sign up to leave a comment.