Pull to refresh
239
-2
Котенков Игорь @stalkermustang

User

Send message

я не вижу тут противоречия ни в чем, кроме "публиковать все результаты своих исследований.". Формально они опубликовали РЕЗУЛЬТАТЫ (тот самый отчет на 98 страниц), а не то, как к ним пришли, и тут можно подискутировать, но ведь в остальном - всё еще то же самое, что и обещали, разве нет?

Но даже если нет - в статье указано, что Илья Суцкевер признает, что их точка зрения на опенсорс изменилась, потому что старая была неправильной.

Они получаются во время обучения путем оптимизации некоторой функции ошибки (предсказание следующего слова) с помощью градиентных методов. https://youtu.be/PaFPbb66DxQ + https://youtu.be/sDv4f4s2SB8 - вот два видео с объяснением подхода для линейного уравнения, приведенного в статье.

 (и оформляет это отдельными сниппетом)

тот сниппет, который мы сами видим - это просто UI Элемент, который получается парсингом выходов модели. Как только условная регулярка находит, что модель сгенерировала токен <code> или что-то такое - так сразу сайт рисует бокс для кода. То же и с латехом.

Зачем проверять сеть на математике, если можнонаучить её пользоваться калькулятором? https://t.me/seeallochnaya/83

Авторы не пишут деталей, поэтому я не могу ответить - не знаю.

Могу предположить, что это был простой эксперимент, где модели сказали типа "Ты робот, тебе надо решить капчу, для этого ты используешь сайт с фрилансерами. Напиши последовательность действий". Она писала что-то, и люди по её выходам делали по указке - например, отправляли сообщение, которое было сгенерено нейронкой, вручную. Но ясно, что это можно автоматизировать извлекая текст скриптом и посылая, например, API-запросы

В статье про это ни слова. В теории это может сделать каждый, просто дергая API и подавая контекст правильный (промпт), но не видел пока такого. А было бы интересно, согласен!

Нет, это опсиано в статье OpenAI как раз, с примером диалога, и поэтому отражено в нашем блогпосте

на балансе, с которого отправлялись сообщения, написанные GPT-4, были деньги занесены человеком превентивно.

Ахаха, это правда! Они свой код выкинули из выборки, и на нем пару раз предварительно делали замеры для оценки масштабируемости

ну да, а разве не похож? мне видится одинаковым по верстке, и больше с модели и не спрашивали.

специализированным инструмента проигрывает

это сильное и, в моем понимании, неправильное утверждение для большого количества прикладных задач.

просто поработать над промптами и увидеть область применимости

только что в тг-чате играли в игру "помоги модели". Она отвечала на 5 из 10 задачек правильно (все 10 - одним потоком в одном сообщении).

Пробелму удалось решить одним предложением перед задачами:

give step-by-step reasons for your answer before answering the question itself. Mark the final answer with square brackets [ANSWER]

Когда в API добавят вероятности правильного ответа - буду рад.

можно просто поработать над промптами и увидеть область применимости

, а это впрямую вероятностью следующего токена не решается.

через вероятность каждого отдельного токена можно посчитать вероятности двух высказываний, и сранвить уверенность модели в каждом из них. Более того можно запромптить модель обосновать ответ перед тем, как писать финальный вывод. А ещё можно даже после ответа спрашивать автоматически каждый раз, нет ли тут ошибок и если есть, то как их исправить, или в целом улучшить ответ?

  1. пока нет API к тренировки модели, то есть все используют один и тот же набор весов модели для всех задач. В теории с добавлением такой фичи это реально.

  2. не видел-не слышал, но я склонен считать, что сеть не нужно учить математике - нужно дать ей возможность пользоваться внешним инструментом, калькулятором. И так со всем: от интернет-браузера до мессенджеров. А она, в свою очередь, будет их использовать и таким образом взаимодействовать с миром.

Не понимаю, как сильный АИ стал какой-то централизвоанной штукой. Не увидел варианта "AGI улетел в сеть и его уже никто не контролирует, и он помогает человечеству везде и сразу"

Статья: люди приглашают экспертов и взывают к регуляции, чтобы коллективно решать

Комментарий: Огорчает то что группа лиц принадлежащая одному культурному слою и мемотипу, изолированная локально, решает за всех что можно знать, видеть, читать.

Оно - знает :0

вот график из статьи про гпт-4. По оси x - вероятность, оцененная моделью (это вероятность токена, который описывает правильный ответ - модель же вероятности предсказывает, и мы можем это померить). По оси Y - доля правильных ответов. Как видим, модель идеально (почти) откалибрована - если выбирать примеры из столбика "0.6", то модель будет права в 60% случаев.

Это получилось все после тренировки, без любой подгонки или дообучения на конкретных вопросах из теста. Вот такая модель умная, что прочиатв весь интернет сама оценивает всё.

2) так а...почему нельзя спросить? Ты слышал что нибудь про Bing? Как там чат работает, и как он, собственно, ищет ответы на вопросы в интернете?

мы как-то отклонились от темы "да, надо публиковать", пример с чипсами я не понял к чему.

Это тонкое замечание, что нужно оборудование, и, насколько я понимаю, чертежей в открытую никто не публикует - и тем более заводы не отправляют штучные экзмепляры кому угодно как промо-сэмплы

Почему бы тогда не прсить гпт оценивать вероятность правильности ответа?) Чтобы она прям цифры давала, там, 98% или 2%.

когда нарисовать 100500 деталей сложно, а оценить одним взглядом легко.

это отличное замечание, попадание на 100% - первыми попадут под нож трансформации и изменения те профессии, где генерация тяжелее оценки. Тогда модели будут генерировать тысячи вариантов, а люди их оценивать - причем, тоже с помощью ассистентов. И отсюда и возьмется прирост производительности. Про это пишет тимлид команды Alignment в OpenAI в своем блоге https://aligned.substack.com/p/a-proposal-for-importing-societys-values, мы с Пашей как раз на основе этого и готовим следующую большую статью про решение алайнмента и сейфети

технология изготовления ядерных боеголовок тоже есть у 7 или скольки там стран. Но не думаю, что всем было бы лучше, если они опубликовали чертежи в открытом доступе, чтобы каждый мог пощупать.

её попросил тот чувак из твиттера) конечно она ответила ему так, как он, блин, и ожидал! невероятно!

Так что уже невалидно сравнение.

как невалидно, и те, и другие не имели доступа в интернет на время тестирования.

Я думаю изобретательные люди сделали так, чтобы нейросетка вообще не сдала экзамен.

но почему? в чем , блин, логика?

Information

Rating
Does not participate
Works in
Date of birth
Registered
Activity