Комментарии 22
Я, например, использую разнообразные LLM для feature extraction — извлечения некоторых узких категорий данных их технических документов,
Опечатка? Может надо из?
Ну GP-5 T лучше чем o4-mini. С той у меня не получалось добиться стабильных результатов, пятерка обрабатывает как надо. Дипсику R1 далеко.
Краткое напоминание формулы:
Где вы нашли эту формулу? Ни поиском в интернете, ни поиском по Хабру я ее не нашел.
где:
N — количество параметров модели,
D — объем обучающих данных,
C — вычислительные затраты, например, количество шагов обучения, или операций с плавающей точкой (FLOPs),
L — ошибка,
С зависит исключительно от N и D; L - какая именно ошибка? Ошибка чего?
Однако выпуск GPT-5 показал, что простое увеличение масштаба уже не гарантирует столь же впечатляющего прироста качества
А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?
Тоже удивился. Даже эмпермически такой формулы нет. Такие формулы любят генерировать сетки, замечал такое. Связывая лишь бы связать, без доказательства, без эвристики. Так что формулу просто сгенерировала сетка и даже возможно "обосновала" ее правильность. А так да, к реальности формула не имеет отношения.
Я не автор, но недавно читал статью Scaling Laws for Neural Language Models, там упоминается похожая формула. Возможно у нее есть продолжение с пересчетом на затраченные ресурсы, но я про него не слышал.
Да, это оттуда. В других местах, которые я читал, типа этого ее несколько обобщают. Но при каких условиях она отражает реальную зависимость, а при каких нет - особенно на масштабах, сопоставимых с GPT-5 - явно не хватает эмпирических данных.
Автору бы сразу так надо было привести ссылку. Не встречал ранее такой формулы и не видел статьи. Но в таком толковании становится более понятно. Тот же Loss отражает суммарную перекрестную энтропию. А формулу, хоть и грубо и не точно, но отражает связь объема данных/ структуры данных (через ошибку)/ размер модели (выделение структуры). Пошел читать, откуда они ее получили, и как интерпретировали.
Где вы нашли эту формулу?
В Kaplan, et al, 2020 Scaling Laws for Neural Language Models. В статье упоминается. Также в Википедии есть, добавил скриншот в статью. Формула там в следующем виде -
L = L0 + (X0/X)^alpha, т.е. L находится в прямо пропорциональной зависимости от X^-alpha, для каждой из величин C, N, D.
L - какая именно ошибка
L - какая именно ошибка
Loss
А где можно почитать про то, что было какое-либо увеличение масштаба между предыдущей моделью и GPT5?
В статье речь о том, почему для GPT-5 не повысили качество путем масштабирования, если на предыдущих версиях это работало.
С чего вдруг провалился? По моему сейчас топовая модель - галлюцинаций на порядок меньше, качество и содержание ответов намного лучше чем у o3 и o4 mini hight. Увеличили контентное окно до более менее приемлемого уровня. Лимиты запросов на pro 3000 в неделю - практически не ограниченые. В математике вообще нет равных. В качестве ассистента gpt5 однозначно очень сильно оторвался от конкурентов.
Просто если вспомнить общие прогнозы что GPT-5 будет настолько точнее, умнее, вообще на другом уровне, что я лично думал с ней мы вообще забудем про галлюцинации и про то, что ИИ не может правильно связать чуть более сложные факты и логику. Думал может архитектуру новую создали, по сравнению с которой стандартный трансформер будет как LSTM сравнить с тем же трансформером. А на деле она здесь получше, а там такая же осталось, т.е. на ряде доменов дали побольше данных, автоматизировали переключение между reasoning - не-reasoning, остальное чисто UX улучшения в самом ChatGPT.
С чего вдруг провалился? По моему сейчас топовая модель - галлюцинаций на порядок меньше, качество и содержание ответов намного лучше чем у o3 и o4 mini hight.
Какие минусы (в сравнении с 4o) заметил конкретно на своих сценариях:
• В ответах стало гораздо больше "воды";
• Стал постоянно "переспрашивать-уточнять", даже если тезис прямо следовал из моего предыдущего промпта-ответа;
• Стало больше какой-то "рассеянности". Порой в упор не замечает даже явных указаний в промпте.
• В целом почему-то ухудшилось качество конкретно языкового модуля – больше ошибок (особенно при использовании веб-поиска вообще улетает в дикие языковые глюки), изложение в целом менее живое и более "сухо-канцелярское";
• Субъективное ощущение, но в целом стал допускать больше ошибок (порой приходится явно указывать на логические нестыковки в разных частях ответа, извиняется и поправляется). И хорошо ещё, когда сам владеешь темой – но для стороннего юзера это может быть довольно опасно;
• Также субъективное ощущение, но в целом стал гораздо более "тупее". На примере прописанных кастомных правил (в памяти) – теперь зачем-то вставляет упоминания про них почти в каждый ответ (условно вида: "Этот мой ответ строго на основании фактов и без использования источников категории X, как вы любите"))). Дополнительное кастомное правило (не упоминать про бойцовский клуб кастомные правила) – никак не помогло;
• Из плюсов – действительно почти убрали прошлый "щенячий восторг" и постоянную адскую лесть юзеру. 😁
Вот как-то так.
Повторю, это конкретно в моих сценариях. Хотя с техническими запросами справляется лучше (судя и по собственному опыту, и по отзывам).
P.S. Но самая главная подляна в том, что даже не дают переключиться на "старую-добрую" 4o (которая устраивала меня почти полностью). Теперь вообще никак.
Может в бесплатной версии нельзя переключиться, но в pro в настройках можно включить устаревшие модели , в том числе и 4о (понимаю, что на вкус и цвет все фломастеры разные, но если просто поболтать то grok намного лучше, а именно как ассистент - chatgpt 5 thinking - сухие подробные ответы со ссылками самое то, 4о почти не использовал , так как была модель о3).
Много умных букаф, только есть 2 момента:
У меня было несколько "неразрешимых" технических задач, которые не мог решить ни на каких версиях 4, а новая помогла решить "с первого прохода". Т.е., просто, оказалась "на голову" выше. Но это лишь личный опыт.
А сам OpenAI говорит (легко ищется), что "да, релиз неудачный", но доходы существенно выросли. Т.е., просто, играют "на публику некомпетентных пользователей", коих у ChatGPT большинство, обеспечивающее доход.
GPT-5 размером чуть ли не меньше GPT-4 и при этом на порядок умнее. GPT-4.5, первый кандидат на звание пятерки был в несколько раз больше выпущенной GPT-5. Sam Altman говорил, что у них сейчас нет ресурсов для запуска в прод огромных, моделей, и он считает это одной из причин почему GPT-5 пришлось сделать такой маленькой. Но из плюсов он же назвал - получившуюся скорость при хорошем улучшении качества.
А с o4-mini-high даже не сравнивайте. По бенчмаркам чуть ли не лучшая модель для кодинга, только все кто имел возможность сравнить с sonnet 3.5/3.7/4 и потом уже gpt-5 плевались от её кода вне зависимости от того сколькими промптами обвешаться. Единственный ее плюс был в скорости работы. Может быстрее придумывать несуществующие библиотеки и быстрее читерить в написании тестов и обходить их условия вместо реальной починки.
Почему провалился? Потому что удишевляют все. Первые самые модели были намного умнее. Перспективы? Смотря что для вас перспектива, но в целом мы уже у лимита.
У меня есть предположение, что очень большой размер модели может быть на самом деле не нужен для хорошей точности. Сейчас большие модели для качественной генерации вынуждены получать именно из-за того, что необходимые данные для обучения - плохо структурированные, разрозненные человеческие тексты. Чтобы извлечь из них необходимые паттерны и построить модель, нужно очень много параметров и очень много переборов вариантов как их оптимально сложить друг с другом. Если же использовать правильную синтетику, можно добиться сходимости за значительно (на порядки) меньшее число итераций и получить точность в какой-то специальной области при также на порядки меньшем числе параметров модели.
Почему провалился релиз GPT-5 и каковы перспективы настоящего open AI?