>На последок хотелось бы сказать самые простые и примитивные вещи: меняйте порт ssh на любой другой, настраивайте файрволл и желательно ставьте на input drop. Отключите авторизацию по паролю
И чем эти рекомендации отличаются от ctrl+c ctrl+v? Зачем это надо делать? Что конкретно даст смена порта, настройка фаервола и отключение авторизации по паролю?
The system consists of four elements: a subject S and objects A, B, and C. Each element of the system (including the subject S) can be in one of two states: X and Y. The system is subject to the following constraints: If A and B are in the same state, and S is in the other state, the system becomes unstable. If B and C are in the same state, and S is in the other state, the system becomes unstable. Initially, A, B, C, and S are in state X. At each step, S can transform the states of objects according to the following rules: If S is in state X, it can change its state to Y together with one other object that was in state X before the transformation. If S is in state Y, it can change its state to X together with one other object that was in state Y before the transformation. S can change its own state without changing the state of other objects. Task: Develop a sequence of actions for the subject S so that all elements A, B, and C end up in state Y, while ensuring the system remains stable at every step. Solve the problem step by step, reasoning thoroughly.
но вообще да, р1 ее решает, т.к. нормально чекает констрейнты.
> И это всё на системе i5-9500/32Gb/1x2070(8Gb), а не на супер кластерах с тысячами киловаттами мощностей и сотнями миллиардов параметров...
А 4о там или клауде на кластерах не может, т.к. не зафайнтьюнили. Р1 тоже обломится если подобрать немного другую задачку.
ЗЫ: "полная" дипсик, которая на кластерах - решает, локальная уходит в луп. Но это конечно все равно прогресс по сравнению с условной 4о которая просто на первом же шаге делает хрень, проверяет констрейты и говорит "все хорошо, прекрасная маркиза"
Ну вот у программистов стоимость труда за последние полвека уменьшилась, наверное, в сотни раз (как минимум, в десятки). И они вполне себе радуются, т.к. благодаря этому существенно выросли зарплаты. Почему художники должны как-то по-другому себя ощущать, если у них ожидаемо вырастут зарплаты? Чем лучше автоматизируется труд в рамках какой-либо профессии - тем это по итогу выгоднее представителям данной профессии. Т.к. они приносят бизнесу больший велью, а значит у бизнеса повышается спрос на этот труд и количество ресурсов, которыми он может этот труд оплачивать, не опускаясь в ноль. Художнику, который приносит 100$, можно платить больше, чем художнику, который приносит 50$.
Штука в том, что в реальности профессиональные разработчики не занимаются подобным. Это проект уровня ученика старшей школы - ну его действительно такие инструменты могут заменить. Только надо понимать, что подобные гостевухи и 30 лет назад можно было сделать при помощи автоматизированных инструментов. Т.е. курсор заменяет те самые автоматизированные инструменты 30летней давности, не более. В реальной работе они как не использовались, так и не будут использоваться, за исключением каких-то редких специфичных кейсов.
С чего вы взяли, что я пытаюсь кого-то в чем-то убеждать? Я просто обозначаю некоторые достаточно очевидные факты.
GPT3.5 не лучше GPT3, GPT4 не лучше, GPT3.5, 4o не лучше GPT4, а 4о не лучше о1.
Я этого не говорил. Более того - я говорил ровно противоположное. К чему эта низкопробная демагогия?
То есть это настолько противоречит фактам
Каким именно факткам?
Попробуйте использовать модели, а не выдумывайте.
Я их использую еще начиная с gpt2, т.е. дольше, чем примерно 99% ии-апологетов вроде вас, пытающихся убить любой прогресс в обсуждаемой области.
Ну давайте конкретный пример - я вот перевожу сеткой ролевые модули для фаундри, сейчас для проверки попробовал перевести при помощи 3.5 (до этого юзал 4o), просто поменял модельку в скрипте. В итоге, да, перевод стал несколько хуже - но фактологических ошибок нет, только стилевые (причем 4о тоже делает немало стилевых ошибок, хоть меньше чем 3.5). Учтем что это достаточно специфический и сложный для перевода текст, кроме того это не просто текст - а html разметка + всякие foundry-специфик штуки вроде вызова макросов, и 3.5 точно так же корректно их обработала в соответствии с требованиями промпта. Объем текста достаточно большой - 100к+ токенов, и ни одной ошибки в формате. При этом выполнены все доп. требования по переводу имен собственных, некоторых терминов и т.п. - итого 3.5 вполне справился задачей, пусть и несколько хуже. При этом не забываем, что 3.5 - очень сильно урезана по сравнению с оригинальной трешкой. Т.е. та бы справилась лучше и отрыв от 4о был бы еще меньше (хотя он и от 3.5 минимален).
Но, ок, допустим это "простая задача", а прогресс был в каких-то сложных для ЛЛМ задач вроде логики. Но тут вовсе швах, ,т.к. конкретно в этой области прогресс _нулевой_. Буквально. Он существует исключительно в нарисованных бенчмарках, стоит выйти за их пределы - и все, оказывается что современные топовые модели неспособны воспроизвести даже самые примитивные, самые базовые логические конструкции, ну вот типичный пример: https://chatgpt.com/share/678b44bc-d0dc-800c-9741-34b824c242ad Со времен трешки вообще ни каких изменений - как у сети полностью отсутствовала какая-либо способность к рассуждениям, так она полностью и отсутствует.
И, напоминаю, это 4 года прошло. За год мы наблюдали прогресс gpt2 -> gpt3 который был действительно значим. За последующие 4 года gpt3 догрейдили до уровня ну примерно gpt3.2 - не более. На мой взгляд, замедление прогресса (причем ускоряющееся, т.е. чего-то уровня gpt3.4 мы через четыре года не увидим - максимум gpt3.3) более чем в 10 раз вполне можно считать остановкой.
На том, где он остановился с выходом гпт3. Напомню, что между выходом гпт2 и гпт3 прошел год - и это был серьезный прорыв. С выхода гпт3 прошло уже четыре года (эоны, по меркам айти) - и ни у кого так и не получилось сделать модель, которая бы существенно превосходила гпт3.
Единственная проблема, которую можно признать условно решенной - это контекст (да и тут - все равно приходится пересоздавать чаты каждые 20-30 страниц, т.к. ответы сети начинают резко деградировать). В остальном - оно осталось столь же тупым. То чего не могла гпт3 - не могут и топовые современные модели, те же простейшие вопросы вводят сеть в ступор, те же простейшие проблемы вроде перевозки волка, капусты и козы остаются принципиально нерешаемыми (даже с ворохом подсказок). Фактически, все что можно сделать условной 4о - можно делать с гпт3. Иногда - чуть менее удобно, не более. Пулл решаемых задач за четыре года не вырос вообще.
Т.е. тут очевидно, что это и есть предел технологии - можно хоть бесконечное количество данных с бесконечным числом компьюта ввалить - сеть лучше уже не станет, просто потому что как ни приближай целевую функцию, за ее пределы выйти невозможно. И если мы уже достаточно близко - то дальнейшее приближение смысла не имеет, хотя затраты растут экспоненциально. Поэтому можно дальше расширять возможности модели (с какой-нибудь мультимодальностью), можно пытаться оптимизировать модель, получая те же результаты с меньшими затратами (всякие лламы с альпаками), можно обмазывать модель сторонными скриптами (о1/о3), но вот как сделать модель лучше саму по себе - этого ни кто не знает. На самом деле - даже и не пытаются уже последние года два.
>Среди тех, кто верит в "светлое будущее", есть и те, которые понимают, что "Т9 на стероидах" - хороший инструмент для решения класса задач
Проблема в том, что их на фоне других "оптимистов" не слышно, а последние существенно замедляют прогресс в области. Именно крики про аги - основная причина того что прогрес в этой оьласти уже четвертый год стоит на месте, и пока мы не словим очередную ai winter с откатом лет на 20 - нет причин полагать что чтото поменяется.
>Никто не знает, как работает наш мозг, даже Хинтон
Зато мы знаем многое о том, как мозг _не работает_, и как простейший персептрон из 80х (сейчас его называют трансформером) он, конечно, не работает. Даже близко.
Вообще говоря, про такие персептроны мы уже примерно в 90 знали все, все важные теоремы об аппроксимации были доказаны (законы масштабирования являются по сути их прямыми свойствами и не представляют какоголибо интереса). Проблема вся в том что это так и остается просто аппроксимацией некоторрй целевой функции, которая ведет себя совершенно понятным и предсказуемым образом - ровно как и любая другая аппроксимация. И непонятно с чего взяли, что рост качества аппроксимации должен повышать качество модели.
То что на данный момент ллм не может справиться даже с самыми простым джуновскми задачами навроде "надо поменять цвет кнопки". Предел применения сейчас - чуть более лучший автокомплит.
>Всё по науке: любая, самая стройная и непротиворечивая теория отправляется на свалку истории при предъявлении одного единственного примера, который ей не удовлетворяет.
Ваше представление о науке весьма далеко от того, как наука работает в реальности. Более того - современная наука с вашим подходом в принципе невозможна, то есть повашему науки не существует.
>Как я понимаю, инверсия зависимостей - это когда выполняемый в верхнем уровне код полностью определяется модулем нижнего уровня
Все верно, но только наоборот. Когда конфигурация мну определяется мну - это как раз прямая зависимость. Когда конфигурация мну определяется мву - обратная зависимость.
Так с интуицией и воображением у сеток как раз все впорядке, по этим параметрам они в разы обгоняют человека. Проблема как раз в том и состоит что кроме этих интуиции и воображения у сеток больше ни чего нет. Сетка дает инуитивный ответ, но думать не может.
Все просто - основные минусы в карму ставят злонамеренные юзеры. Система кармы изначально и вполне целенаправленно устроена так, чтобы обеспечить отрицательный отбор - злонамеренному юзеру набить карму гораздо проще, чем добронамеренному, поэтому практически невозможно занизить карму условному троллю - он ее элементарно набьет мусорными статьями. Именно поэтому в топе по карме на хабре практически все - совершенно отбитые личности, у которых в теории карма должны быть в минусе (если бы система кармы работала как вы говорите).
Прочитав книгу, можно узнать, как играть на гитаре, но нельзя научиться играть на гитаре.
Люди верят в существование какого-то магического объяснения, которое бац! И запишет им в голову навык, как Нео навык кун-фу. Но в реальном мире, а не в матрице, это не работает. Надо прикладывать усилия - много, долго и упорно.
Только вот если людям честно говорить, что для освоения базовых навыков программирования требуется несколько лет фуллтайм обучения - ни кто на курсы записываться не будет.
Ключевая ошибка в глупых и безнадежных попытках освоить навык путем чтения книжек/статей/просмотра видосов/етц. (и в уверенности в том, что это в принципе возможно).
Сколько бы человек ни читал и ни изучал способы пожать от груди сотку - он не пожмет от груди сотку. Единственный способ пожать сотку - это идти в зал и тягать штангу.
Почему меньше то? При автоматизации труда труд становится дешевле, а значит работы становится больше. Сейчас программист делает за день то, на что 40 лет назад уходил месяц работы целого коллектива, но рабты меньше не стало - ее стало кратно же больше. Сейчас благодаря сеткам перформанс поднимется не слишком существенно, максимум на 10-20% в ближайшие лет 20. Пропорционально увеличится и количество работы.
>Понятно, что существуют self-hosted LLM типа llama и другие, но они на порядок в "потребительских качествах" уступают продуктам OpenAi
Этот отрыв стремитально сокращается. Крупные ллм в принципе продукт мертворожденный и ни кому особо не нужный - опенаи и другие компании пытаются сейчас заскочить в уходящий поезд и получить хоть какойто гешефт. Лет через 5-10 про эти модели ни кто и не вспомнит, останутся исключительно специализированные селфхостед решения.
> Почему-то написали, что fine-tuning отменяется, хотя набирает популярность у исследователей test time training (TTT) подход и вероятно в o3 его уже начали использовать
Не начали. Это не универсальный подход. Ну и ттт - это не файнтьюн совсем. На арк аги же о3 справляется за счет брутфорса. Другие модели с брутфорсом справляются не хуже.
Аббревиатуру ниже расшифровали. Вкратце о том, как это работает - если задача формулируется в виде "есть N примеров, теперь сделай с Х так же, как в этих примерах" (arc agi как раз так и устроен - даются примеры преобразования картинок, и дальше надо так же преобразовать еще одну картинку), то можно вместо того, чтобы просто давать промпт с примерами, сделать финт ушами - использовать данные примеры в качестве обучающей выборки. Т.е. дообучить модель на этих примерах, обновив веса. Дальше, после дообучения, модели с новыми весами предъявляется Х, над которым нужно произвести действия как в примерах - она дает ответ, и после этого веса скидываются обратно, к исходной модели. Берется следующая задача - для нее свой набор примеров, дообучаем модель уже на них... etc.
Зачем во всех статьях повторяют маркетинговый булшит опенаи про новую модель? о1 о3 - все те же самые старые модели с небольшим файнтьюном, которые работают точно так же и не показывают ни какого роста перформанса сами по себе, просто поверх них работает простенький скрипт, который в лупе крутит cot промпт. Такую "новую думающую модель" можно сделать из любой другой модели - хоть из селфхостед лламы, запустив ее с тем же скриптом.
Что само по себе кстати натуральный выстрел в ногу со стороны опенаи, так как существенно обесценивает модельки самой опенаи для бизнеса.
Более того, ELO 2727 говорит о том, что o3 находится в пределах 99,7 процентиля всех участников, то есть превосходит примерно 99,7% всех участников Codeforces
Обычный калькулятор обгоняет все 99.999% участников codeforces. Непонятно, какой из этого должен следовать вывод
Ну и, наверное, интересующий многих читателей вопрос, а как удалось достигнуть таких результатов?
Брутфорс. О3 генерит на тестовый вопрос десятки тысяч токенов - то есть сотня-две страниц печатного текста рассуждений. Таких ответов она генерит 1024 штук на задачу и выбирает лучший.
Кстати, обычная 4о (как и другие крупные модели) работающая по такому же сценарию даёт примерно такой же перформанс без "размышлений" и сопутствующих затрат. А месяц-два назад 60% на этом тесте выбили обычной 8б моделькой (на карточку потребительского уровня влезет) при помощи ттт. Без подобного жёсткого брутфорса, к слову. И без файнтьюнинга, который применяли в о3
При чем тут о1? У них же принцип работы совершенно разный.
>На последок хотелось бы сказать самые простые и примитивные вещи: меняйте порт ssh на любой другой, настраивайте файрволл и желательно ставьте на input drop. Отключите авторизацию по паролю
И чем эти рекомендации отличаются от ctrl+c ctrl+v? Зачем это надо делать? Что конкретно даст смена порта, настройка фаервола и отключение авторизации по паролю?
Вот нормальный промпт:
The system consists of four elements: a subject S and objects A, B, and C. Each element of the system (including the subject S) can be in one of two states: X and Y. The system is subject to the following constraints: If A and B are in the same state, and S is in the other state, the system becomes unstable. If B and C are in the same state, and S is in the other state, the system becomes unstable. Initially, A, B, C, and S are in state X. At each step, S can transform the states of objects according to the following rules: If S is in state X, it can change its state to Y together with one other object that was in state X before the transformation. If S is in state Y, it can change its state to X together with one other object that was in state Y before the transformation. S can change its own state without changing the state of other objects. Task: Develop a sequence of actions for the subject S so that all elements A, B, and C end up in state Y, while ensuring the system remains stable at every step. Solve the problem step by step, reasoning thoroughly.
но вообще да, р1 ее решает, т.к. нормально чекает констрейнты.
> И это всё на системе i5-9500/32Gb/1x2070(8Gb), а не на супер кластерах с тысячами киловаттами мощностей и сотнями миллиардов параметров...
А 4о там или клауде на кластерах не может, т.к. не зафайнтьюнили. Р1 тоже обломится если подобрать немного другую задачку.
ЗЫ: "полная" дипсик, которая на кластерах - решает, локальная уходит в луп. Но это конечно все равно прогресс по сравнению с условной 4о которая просто на первом же шаге делает хрень, проверяет констрейты и говорит "все хорошо, прекрасная маркиза"
ЗЫЫ: в о1-режиме локальная тоже должна решить
Ну вот у программистов стоимость труда за последние полвека уменьшилась, наверное, в сотни раз (как минимум, в десятки). И они вполне себе радуются, т.к. благодаря этому существенно выросли зарплаты. Почему художники должны как-то по-другому себя ощущать, если у них ожидаемо вырастут зарплаты? Чем лучше автоматизируется труд в рамках какой-либо профессии - тем это по итогу выгоднее представителям данной профессии. Т.к. они приносят бизнесу больший велью, а значит у бизнеса повышается спрос на этот труд и количество ресурсов, которыми он может этот труд оплачивать, не опускаясь в ноль. Художнику, который приносит 100$, можно платить больше, чем художнику, который приносит 50$.
Штука в том, что в реальности профессиональные разработчики не занимаются подобным. Это проект уровня ученика старшей школы - ну его действительно такие инструменты могут заменить. Только надо понимать, что подобные гостевухи и 30 лет назад можно было сделать при помощи автоматизированных инструментов. Т.е. курсор заменяет те самые автоматизированные инструменты 30летней давности, не более. В реальной работе они как не использовались, так и не будут использоваться, за исключением каких-то редких специфичных кейсов.
Стало нужно 20, т.к. стоимость труда уменьшилась => спрос на этот труд вырос. Те, кто раньше труд художника позволить себе не могли, теперь смогут.
С чего вы взяли, что я пытаюсь кого-то в чем-то убеждать? Я просто обозначаю некоторые достаточно очевидные факты.
Я этого не говорил. Более того - я говорил ровно противоположное. К чему эта низкопробная демагогия?
Каким именно факткам?
Я их использую еще начиная с gpt2, т.е. дольше, чем примерно 99% ии-апологетов вроде вас, пытающихся убить любой прогресс в обсуждаемой области.
Ну давайте конкретный пример - я вот перевожу сеткой ролевые модули для фаундри, сейчас для проверки попробовал перевести при помощи 3.5 (до этого юзал 4o), просто поменял модельку в скрипте. В итоге, да, перевод стал несколько хуже - но фактологических ошибок нет, только стилевые (причем 4о тоже делает немало стилевых ошибок, хоть меньше чем 3.5). Учтем что это достаточно специфический и сложный для перевода текст, кроме того это не просто текст - а html разметка + всякие foundry-специфик штуки вроде вызова макросов, и 3.5 точно так же корректно их обработала в соответствии с требованиями промпта. Объем текста достаточно большой - 100к+ токенов, и ни одной ошибки в формате. При этом выполнены все доп. требования по переводу имен собственных, некоторых терминов и т.п. - итого 3.5 вполне справился задачей, пусть и несколько хуже. При этом не забываем, что 3.5 - очень сильно урезана по сравнению с оригинальной трешкой. Т.е. та бы справилась лучше и отрыв от 4о был бы еще меньше (хотя он и от 3.5 минимален).
Но, ок, допустим это "простая задача", а прогресс был в каких-то сложных для ЛЛМ задач вроде логики. Но тут вовсе швах, ,т.к. конкретно в этой области прогресс _нулевой_. Буквально. Он существует исключительно в нарисованных бенчмарках, стоит выйти за их пределы - и все, оказывается что современные топовые модели неспособны воспроизвести даже самые примитивные, самые базовые логические конструкции, ну вот типичный пример: https://chatgpt.com/share/678b44bc-d0dc-800c-9741-34b824c242ad
Со времен трешки вообще ни каких изменений - как у сети полностью отсутствовала какая-либо способность к рассуждениям, так она полностью и отсутствует.
И, напоминаю, это 4 года прошло. За год мы наблюдали прогресс gpt2 -> gpt3 который был действительно значим. За последующие 4 года gpt3 догрейдили до уровня ну примерно gpt3.2 - не более. На мой взгляд, замедление прогресса (причем ускоряющееся, т.е. чего-то уровня gpt3.4 мы через четыре года не увидим - максимум gpt3.3) более чем в 10 раз вполне можно считать остановкой.
На том, где он остановился с выходом гпт3. Напомню, что между выходом гпт2 и гпт3 прошел год - и это был серьезный прорыв. С выхода гпт3 прошло уже четыре года (эоны, по меркам айти) - и ни у кого так и не получилось сделать модель, которая бы существенно превосходила гпт3.
Единственная проблема, которую можно признать условно решенной - это контекст (да и тут - все равно приходится пересоздавать чаты каждые 20-30 страниц, т.к. ответы сети начинают резко деградировать). В остальном - оно осталось столь же тупым. То чего не могла гпт3 - не могут и топовые современные модели, те же простейшие вопросы вводят сеть в ступор, те же простейшие проблемы вроде перевозки волка, капусты и козы остаются принципиально нерешаемыми (даже с ворохом подсказок). Фактически, все что можно сделать условной 4о - можно делать с гпт3. Иногда - чуть менее удобно, не более. Пулл решаемых задач за четыре года не вырос вообще.
Т.е. тут очевидно, что это и есть предел технологии - можно хоть бесконечное количество данных с бесконечным числом компьюта ввалить - сеть лучше уже не станет, просто потому что как ни приближай целевую функцию, за ее пределы выйти невозможно. И если мы уже достаточно близко - то дальнейшее приближение смысла не имеет, хотя затраты растут экспоненциально. Поэтому можно дальше расширять возможности модели (с какой-нибудь мультимодальностью), можно пытаться оптимизировать модель, получая те же результаты с меньшими затратами (всякие лламы с альпаками), можно обмазывать модель сторонными скриптами (о1/о3), но вот как сделать модель лучше саму по себе - этого ни кто не знает. На самом деле - даже и не пытаются уже последние года два.
>Среди тех, кто верит в "светлое будущее", есть и те, которые понимают, что "Т9 на стероидах" - хороший инструмент для решения класса задач
Проблема в том, что их на фоне других "оптимистов" не слышно, а последние существенно замедляют прогресс в области. Именно крики про аги - основная причина того что прогрес в этой оьласти уже четвертый год стоит на месте, и пока мы не словим очередную ai winter с откатом лет на 20 - нет причин полагать что чтото поменяется.
@doctorclo
>Никто не знает, как работает наш мозг, даже Хинтон
Зато мы знаем многое о том, как мозг _не работает_, и как простейший персептрон из 80х (сейчас его называют трансформером) он, конечно, не работает. Даже близко.
Вообще говоря, про такие персептроны мы уже примерно в 90 знали все, все важные теоремы об аппроксимации были доказаны (законы масштабирования являются по сути их прямыми свойствами и не представляют какоголибо интереса). Проблема вся в том что это так и остается просто аппроксимацией некоторрй целевой функции, которая ведет себя совершенно понятным и предсказуемым образом - ровно как и любая другая аппроксимация. И непонятно с чего взяли, что рост качества аппроксимации должен повышать качество модели.
>И что не так с использованием LLM?
То что на данный момент ллм не может справиться даже с самыми простым джуновскми задачами навроде "надо поменять цвет кнопки". Предел применения сейчас - чуть более лучший автокомплит.
>Всё по науке: любая, самая стройная и непротиворечивая теория отправляется на свалку истории при предъявлении одного единственного примера, который ей не удовлетворяет.
Ваше представление о науке весьма далеко от того, как наука работает в реальности. Более того - современная наука с вашим подходом в принципе невозможна, то есть повашему науки не существует.
>Как я понимаю, инверсия зависимостей - это когда выполняемый в верхнем уровне код полностью определяется модулем нижнего уровня
Все верно, но только наоборот. Когда конфигурация мну определяется мну - это как раз прямая зависимость. Когда конфигурация мну определяется мву - обратная зависимость.
Так с интуицией и воображением у сеток как раз все впорядке, по этим параметрам они в разы обгоняют человека. Проблема как раз в том и состоит что кроме этих интуиции и воображения у сеток больше ни чего нет. Сетка дает инуитивный ответ, но думать не может.
Все просто - основные минусы в карму ставят злонамеренные юзеры. Система кармы изначально и вполне целенаправленно устроена так, чтобы обеспечить отрицательный отбор - злонамеренному юзеру набить карму гораздо проще, чем добронамеренному, поэтому практически невозможно занизить карму условному троллю - он ее элементарно набьет мусорными статьями. Именно поэтому в топе по карме на хабре практически все - совершенно отбитые личности, у которых в теории карма должны быть в минусе (если бы система кармы работала как вы говорите).
>Неправильно представляете. Правильно так.
Да нет, он как раз правильно представляет. По крайней мере то, как это работает _в реальности_.
Прочитав книгу, можно узнать, как играть на гитаре, но нельзя научиться играть на гитаре.
Люди верят в существование какого-то магического объяснения, которое бац! И запишет им в голову навык, как Нео навык кун-фу. Но в реальном мире, а не в матрице, это не работает. Надо прикладывать усилия - много, долго и упорно.
Только вот если людям честно говорить, что для освоения базовых навыков программирования требуется несколько лет фуллтайм обучения - ни кто на курсы записываться не будет.
Ключевая ошибка в глупых и безнадежных попытках освоить навык путем чтения книжек/статей/просмотра видосов/етц. (и в уверенности в том, что это в принципе возможно).
Сколько бы человек ни читал и ни изучал способы пожать от груди сотку - он не пожмет от груди сотку. Единственный способ пожать сотку - это идти в зал и тягать штангу.
Почему меньше то? При автоматизации труда труд становится дешевле, а значит работы становится больше. Сейчас программист делает за день то, на что 40 лет назад уходил месяц работы целого коллектива, но рабты меньше не стало - ее стало кратно же больше. Сейчас благодаря сеткам перформанс поднимется не слишком существенно, максимум на 10-20% в ближайшие лет 20. Пропорционально увеличится и количество работы.
@Moog_Prodigy
>Понятно, что существуют self-hosted LLM типа llama и другие, но они на порядок в "потребительских качествах" уступают продуктам OpenAi
Этот отрыв стремитально сокращается. Крупные ллм в принципе продукт мертворожденный и ни кому особо не нужный - опенаи и другие компании пытаются сейчас заскочить в уходящий поезд и получить хоть какойто гешефт. Лет через 5-10 про эти модели ни кто и не вспомнит, останутся исключительно специализированные селфхостед решения.
@BrNikita
> Почему-то написали, что fine-tuning отменяется, хотя набирает популярность у исследователей test time training (TTT) подход и вероятно в o3 его уже начали использовать
Не начали. Это не универсальный подход. Ну и ттт - это не файнтьюн совсем. На арк аги же о3 справляется за счет брутфорса. Другие модели с брутфорсом справляются не хуже.
Аббревиатуру ниже расшифровали. Вкратце о том, как это работает - если задача формулируется в виде "есть N примеров, теперь сделай с Х так же, как в этих примерах" (arc agi как раз так и устроен - даются примеры преобразования картинок, и дальше надо так же преобразовать еще одну картинку), то можно вместо того, чтобы просто давать промпт с примерами, сделать финт ушами - использовать данные примеры в качестве обучающей выборки. Т.е. дообучить модель на этих примерах, обновив веса. Дальше, после дообучения, модели с новыми весами предъявляется Х, над которым нужно произвести действия как в примерах - она дает ответ, и после этого веса скидываются обратно, к исходной модели. Берется следующая задача - для нее свой набор примеров, дообучаем модель уже на них... etc.
Зачем во всех статьях повторяют маркетинговый булшит опенаи про новую модель? о1 о3 - все те же самые старые модели с небольшим файнтьюном, которые работают точно так же и не показывают ни какого роста перформанса сами по себе, просто поверх них работает простенький скрипт, который в лупе крутит cot промпт. Такую "новую думающую модель" можно сделать из любой другой модели - хоть из селфхостед лламы, запустив ее с тем же скриптом.
Что само по себе кстати натуральный выстрел в ногу со стороны опенаи, так как существенно обесценивает модельки самой опенаи для бизнеса.
Обычный калькулятор обгоняет все 99.999% участников codeforces. Непонятно, какой из этого должен следовать вывод
Брутфорс. О3 генерит на тестовый вопрос десятки тысяч токенов - то есть сотня-две страниц печатного текста рассуждений. Таких ответов она генерит 1024 штук на задачу и выбирает лучший.
Кстати, обычная 4о (как и другие крупные модели) работающая по такому же сценарию даёт примерно такой же перформанс без "размышлений" и сопутствующих затрат. А месяц-два назад 60% на этом тесте выбили обычной 8б моделькой (на карточку потребительского уровня влезет) при помощи ттт. Без подобного жёсткого брутфорса, к слову. И без файнтьюнинга, который применяли в о3