Комментарии 27
Экспериментальная
Часто обрывает ответ на середине.
Видимо училась на 'для этого нужен всего лишь простой советский ...'
В open webui есть кнопка "продолжить". Работает превосходно. За счёт неё и контекстного окна в 1кк токенов способно генерировать гигантские консистентные артефакты вроде конфигов или например sql дампов
В их Aistudio - нет проблем с этим. Видимо настройки какие-то.
Простите, но за неделю с выхода оригинальной статьи многое изменилось. В частности вышли новые модели OpenAI. На https://scale.com/ балом правит серия o

На lmarena правда Gemini-2.5-Pro-Exp-03-25 все еще на первом месте, но скорее всего просто потому, что пока нет новых o3 и o4.
Вы статью читали? Вам разжевывают про фирменные процессоры, которые только вышли, про огромные массивы данных и прочие вещи типа поисковик номер 1 и видео хостинг номер 1 в мире. А вы хвалитесь разовым бенчмарком.
Нет, я прочитал заголовок и первые бенчмарки без актуальных моделей и они не соответствуют реальности. Дальше читать желания не появилось, если автор на кликбейте.
Разница в качестве не сильно большая. А вот стоимость различается на порядки. Так что если включить и этот фактор, o3 во всех видах просто меркнет.
Гугл оооочень запоздали в ИИ гонке, хотя фактически они изобрели GPT.
Но сейчас наваливают не по детски. Они и догнали и перегнали всех своих конкурентов и сейчас конкурируют(не проигрывают!) лишь в интеллекте, но уничтожают всех и вся в скорости и стоимости.
Sonnet $15 за миллион токенов Output.
Gemini $15 за миллион Output
o4-mini выше по качеству кода и в три раза дешевле.
Вопрос где уничтожение ?
В агентском режиме Gemini серия дерьмо.
В плане креативности дерьмо.
Да пишет довольно неплохо код. И неплохо в математике.
Но это не Top 1. Arena бенчмарк куплен давно и давно не отражает реальности.
Жду когда ИИ захватит мир и 90% программистов будет вайбкодерами
Статья не актуальна. По цене: вышла gpt 4.1 nano которая имеет так же 1млн контекстное окно и такую же цену. Только MMLU у гпт 80 а у гемини 77. И скорость генерации у гпт чуть повыше( на 7 процентов). Да конечно мультимодальности нет, но такие модели только в чат боты и подключать с их то интеллектом... + о3 вышла как и написали уже в коментах.
Ребят, выпускать перевод статьи от 10 апреля, спустя два дня с момента, когда автор следующую статью выпустил (17 апреля), с реакцией на новые модели OpenAI - ну сильно большой лаг. При этом в следующей статьи он корректирует тезисы той, которую вы перевели.
9 дней на перевод, вас что, в Дипле забанили?)

Устаревшая информация: в гонке AI Leaders на пол корпуса вперед вырвался O3.
Следить за ИИ лидером, это как убегать от поезда по рельсам.
https://trackingai.org/home
DeepMind явно лидер. Мне не важно что показывают бенчмарки. На них можно обучить модель, поэтому опираться на них для оценки очень субъективно. Дело в фундаментальных исследованиях, и они именно у DeepMind, а не у openai.
Я вижу как DeepMind идёт по следам нейробиологии, так как у них сильные нейробиологи, а не только инженеры. Многие ли знают про исследования по разработке аналога гиппокамп от DeepMind и сравнению обученной модели на исследованиях на крысах или те же клетки карты энторинальной коры. Даже таламус пробовали модулировать.
Их мультимодальная модель это не просто инженерное решение. Это последовательное развитие их видения нейробиологи. Они точечно развивают определенные детали в модели, именно так как это делает мозг.
Это фундаментальные исследования. А что может дать openai? Даже их отдельные голосовые и генерации картинок и текста, это разные по сути модели. Это не та мультимодальность, которая есть у DeepMind.
Поэтому не вижу смысла смотреть на цифры бенчмарки, к ним 0 доверия. Это не значит что они плохие и ничего не показывают. Они демонстрируют сложности модели. Но лично для меня лидером является фундаментальное развитие, а не попытка выехать на очках за правильный ответ, которому можно дообучить модель.
у них сильные нейробиологи
Это же не константа, опытные кадры всегда мигрируют между компаниями или создают свои. Взять авторов гугловской статьи "All you need is attention", положившей начало буму трансформеров. Только один остался в гугле и руководит Gemini, один в OpenAI, один в Antrophic, у остальных свои стартапы или компании.
О каких закрытых фундаментальных исследованиях может идти речь? Да и научная сфера не настолько закрытая, шеринг знаний и статьями и на конференциях присутствует.
Даже их отдельные голосовые и генерации картинок и текста, это разные по сути модели.
Так было во времена DALLE-3 в качестве генератора, генерация картинок мультимодальна в 4o с недавнего времени. Синтез и распознавание речи - тоже, еще раньше релизили live-режим общения с трансляцией видео с камеры.
Да, без фундаментальных исследований далеко не продвинуться, но не стоит делать DeepMind здесь фаворитом только на основании их долгого опыта и имеющихся заслуг, не все открытия делают профессора.
С моменту ухода из DeepMind прошло много времени, и они далеко продвинулись в том, в чем другие даже не работали. Трансформеры сами по себе это лишь небольшой кирпичик, которого не достаточно. Я не говорю про руководство, речь про команду. Если посмотреть на руководство OpenAi, Antrophic стартапов то кроме их "руководства" они больше ни чем не отличились. Их стартапы и компании больше не выдают каких-то фундаментальных изменений. (Antrophic пытается копать в эту сторону - через латентное пространство матриц внимания).
Мне кажется вы плохо понимаете, что такое модультимодальные модели на уровне нейробиологии. Синтез и речь в OpenAi не мультимодальные. То есть там в основе все та же LLM, в которую распознается речь и подается текст и синтезируется обратно - это не мультимодальность. Это что-то вроде агентов. Можно конечно в рамках PR маркетинга назвать это мультимодальностью, но и курицу можно назвать страусов. Это не изменит ничего.

и вот

мультимодальность двух зон. Посмотрите разницу https://t.me/greenruff/2146 между мультимодальностью и привычным многим агентским системам.
Совсем другой принцип и связи. И это выше работы DeepMind. Так же как и их работы по разработке модели таламуса, гиппокампа (специальные модели трансформеров), ячеек места энторинальной коры. Проверенных на мышах. Эта компания сильна не руководством, а научной командой которую мы не видим. Я могу перечислить много фундаментально важных работ, которые они проделали. Именно они реализовали мультимодальные модели, и их новые модели явно ушли далеко.
Ни чего подобного нет ни у одной компании, кроме PR, расширения датасета, измерения очков бенчмарки и функционала продукта. Это все прекрасно. Но это как Яндекс или Сбера но в более крупном масштабе, которые делают отличный продуктовый продукт.
Тот же Илья Суцкевер не выдал ничего нового, он отличный инженер, но не нейробиолог в сочетании с инженером. Те же представители совета директоров OpenAi которые были - были связаны с AI очень условно, весь их треп был вокруг "безопасности ИИ и возможных последствий". Потому что больше они ничего родить не могли, так как не являются специалистами в этой теме. Хорошие инженеры и руководители? Да, вполне. Хорошие исследователи, способные фундаментально развить модель? Нет.
вы плохо понимаете, что такое модультимодальные модели на уровне нейробиологии
Здесь вы, конечно, правы, совсем не моя сфера.
в основе все та же LLM, в которую распознается речь и подается текст и синтезируется обратно
Здесь нет - 4o выпускалась и анонсировалась как мультимодальная модель. Да, через ChatGPT мультимодальности почти не видно, картинкам её подвезли меньше месяца назад, голос в чате - до сих пор через конвертацию.
Advanced voice mode - мультимодальный, но есть только в приложении с конца февраля. Скорее всего вы не следите за обновлениями продуктов OpenAI и вероятно не в курсе.
Допускаю, что можно врать в анонсах про мультимодальность - но вывести работу с картинками на текущий уровень через конвертацию в текст - нет.
Насчет Alphabet - у меня нет никаких аргументов ни в пользу ни против, но они плохо умеют в PR, увы. Тот же выход Gemini 2.0 Flash Experimental с мультимодальной генерацией незаслуженно остался без внимания, пусть качество генераций хуже обновленного 4o - он хорош и релизнулся раньше. Кто в конечном итоге будет двигать прогресс - DeepMind, OpenAI или новая noname компания - стороннему наблюдателю (мне) неважно, главное чтобы был прогресс.
А история, особенно недавняя и IT'шная, помнит огромное количество быстрого замещения компаний, который в моменте являлись безусловными монополистами рынка.
Да вы правы, прочитал и вижу что GPT‑4o действительно обучили как мультимодальную модель. Здесь предполагается что она построена на базе Flamingo от DeepMind (https://medium.com/@amol-wagh/whats-new-in-gpt-4-an-overview-of-the-gpt-4-architecture-and-capabilities-of-next-generation-ai-900c445d5ffe). Но утверждать не буду, так как openAi не описывает свою внутреннюю архитектуру.
Но другие говорят, что у них ближе к Chameleon: Mixed-Modal Early-Fusion Foundation Models. https://huggingface.co/papers/2405.09818
Ее описание тут: https://arxiv.org/pdf/2405.09818.pdf

Я не верю, что OpenAi разрабатывает архитектуры сам, а не адаптирует другие. Уверен инженеры у них отличные, которые могут хорошо оптимизировать новые архитектуры, и имеют доступ к множеству данных для обучения.
Но по пока что, я не нашел ни каких данных о том как именно работает их мульти модальность. Что лично для меня наводит на мысли, что раскрытие в общем ключе такой информации может поставить под сомнение их модель развития для инвесторов, так как окажется, что инноваций нет.
DeepMind плохо умеют воплощать на основе своих исследований продукты. Я не думаю, что их вообще волнует шумиха вокруг всего это. Они как занимались исследованиями, так и занимаются. Проверяя при этом на живых клетках, пересадках и совмещении работы искусственных сетей и реальных клеток. Поэтому их не особо волнует обучение на огромных массивах, реализация продуктовых решений. В этом плане безусловно они отстают. Вопрос только в том, что если завтра компании перестанут делиться решениями и исследованиями, то что будет делать OpenAI и множество других компания. И возможен ли такой сценарий.
Если такое возникнет, то Яндекс и Сбер сразу отстанут. Сбер сейчас использует DeepSeek https://huggingface.co/ai-sage/GigaChat-20B-A3B-base/blob/main/modelling_deepseek.py , Яндекс тоже не сам писал архитектуры. Поэтому я с этой позиции смотрю на лидерство в этой области. Ни как продукта, а как наработок фундаментальных исследований, которые позволяют компании развивать нейронные сети в правильном направлении.
У Яндекса, Сбера и прочих компаний внутри страны есть еще большие ограничения по железу, которые вряд ли позволят конкурировать на рынке собственных моделей. С другой стороны, в Европе таких ограничений нет, но нет и топ моделей (ну кроме нишевых для определенных языков Mistral).
если завтра компании перестанут делиться решениями
Очень надеюсь, что здесь тренд развернется, Альтман анонсировал к лету релизнуть модель в опенсорс уровня o3-mini, что у них происходит внутри с исследованиями - действительно непонятно.
Вот вообще железо и бюджет не играют роли для фундаментальных исследования. Вы думаете, что DeepMind тратит миллиарды долларов на свою команду и они требуют мощного железа? Это не так. Проблема подхода. Сбер и Яндекс, как и другие крупные рос компании построены на другой методологии и модели. Я работал в крупных - это когда каждое подразделение отдельный бизнес, KPI, сроки продукта, различные скрамы Agile Kanbana. Подход найма с собеседованиями, где в итоге ты ничего не будешь использовать по тому что собеседовали (алгоритмические задачи будут иметь 0 отношения , к тому что будешь подготавливать какую нибудь разметку текстовых файлов и править JSON). Каждое подразделение считает свох расходы, конкурирует с другим за время, ресурсы, показатели, оценку. Могут одну и туже задачу реализовать по кругу, когда одна команда сделала, затем другая делает иначе - так как сверху решили, что подход устарел или надо изменить все или передали в другое подразделение или ... причин 1000.
Как вы думаете, при данном подходе есть место реальным R&D? у R&D нет сроков, нет KPI, нет сторипоинтов, более того ты даже не знаешь точно какой результат получишь и возможно он будет совсем в другой части. Поэтому ни у Яндекса, ни у Сбера, ни у МТС, ни у Mail (VK) нет на данный момент ни каких шансов. 0 шансов на фундаментальные разработки.
Деньги сжигаются там нормально. У меня не было денег, но я сумер выстроить синтез управляемой эмоциональной речи на физиологической модели вдох-выдоха https://t.me/greenruff/1819
В то время пока Сбер просрал взял и дообучал модель распознавания эмоций, я им раскладывал почему это не работает и как правильно, тоже проводят исследования: https://t.me/greenruff/1855
Каким то образом у меня нашлись ресурсы для исследования речи с нуля, что позволило найти и сравнить фазовые пространства речи разных живых организмов https://t.me/greenruff/2008 и ввести новый инструмент анализа на основе градиентов. Который показал, как речь на каждом свое уровне стремиться к минимизации энергии, что помогло в дальнейшем. Хотя мне в том же сбере и так от ML разработчиков часто слышал, биология и сетки разные вещи и зачем вообще совмещать.
Или может нужно миллионы долларов, чтобы последовательно исследовать и выстроить классическую шести слойную модель неокортекса и ее архитектуру? Что в итоге показала результат гораздо лучше чем у трансформеров https://t.me/greenruff/2180 и более того, показало что сами трансформеры являются очень упрощенным вариантов этой модели для ассоциативных зон.
Или может нужны деньги, чтобы разработать новый подход обучения вместо метода обратного распространения? https://habr.com/ru/articles/900186/comments/#comment_28165598 Который показал результаты лучше чем классический метод обратного распространения, потому что построен на нейробиологии. Я ни чего не изобрел там в плане механизмов работы мозга, а после долгих исследования сумел перенести и совместить методы обучения градиентов на основе сразу локальной и глобальной ошибки.
Сейчас я делаю модель саморефликсии и модель гистерезиса (тоже большое и важное исследование об асимметрии вероятности сигнала волны по фазе, амплитуде и частоте, которые и приводят к выделению признаков) которую даже частично описывал для амплитуды. https://t.me/greenruff/2170 Тогда еще без понимания, ее физического смысла. И этот подход даже для учета асимметрии вероятности амплитуды в сигнале, значительно улучшил обучение сетки, так как позволил быстро находить устойчивые признаки в сигнале. Я что изобрел гистерезис и мне надо было миллионы долларов на это? Или надо исследовать и постараться перенести гомеостаз и гистерезис сигнала нейронов на сетки?
Поэтому ответ нет. Это такое нелепое оправдание, фигурировать бюджетом и железом.
А включением своих мозгов тоже заблокировали санкциями и к ним сейчас усложнился доступ на территории России?
У меня дочка попросила помочь (а наверное дать ответ, чтоб подогнать) с задачкой по математике. Я был жутко занят по работе и как самый ответственный папа /s сначала спросил, не отключили ли интернет, а потом решил потратить таки пару минут и спросил ИИ.
Спросил Гигачат (ну он был в телеграме). Он ответил очень не дружелюбно, я сам офигел разбираться в его сгенеренных переменных и как вообще это прочитать.
Подправил промпт. "Объясни задачку девочке 8 класса, двоечнице, и убери символы в переменных" Один фиг - черти-что. Ответ гига_Чат = 10 км,час
Решил спросить GPT = 14 км/ч
а что правильно?
Задачка

задачка
ответ Гигачат
Давай разберём твою задачку простыми словами!
Представь себе моторную лодку, плывущую сначала вверх по реке, потом обратно вниз. Течение реки мешает ей идти вверх и помогает идти вниз. Нам надо выяснить её собственную скорость, если бы река стояла спокойно.
Что нам известно?
Лодка проплыла против течения реки 85,5 километра.
Обратно вернувшись по течению, потратила на 5 часов меньше времени.
Река течёт сама со скоростью 5 километров в час.
Нам нужно вычислить собственную скорость лодки в спокойной воде.
Шаг первый: Обозначение скоростей
Собственная скорость лодки обозначим буквой $ V $. Тогда:
Когда лодка идёт против течения, её реальная скорость становится медленнее на 5 км/ч ($ V - 5 $),
А когда она движется по течению, скорость увеличивается на 5 км/ч ($ V + 5 $).
Шаг второй: Запись уравнений
Мы знаем расстояния, можем записать формулы времени:
Пусть лодка шла против течения $ T1 $ часов. Тогда пройденное расстояние:
[
\text{расстояние} = \text{скорость} \times \text{время}, \quad (V - 5) \times T1 = 85,5
]Путь обратно занял $ T2
T2 = T1 - 5 $). Значит:
[
(V + 5) \times (T1 - 5) = 85,5
]
Шаг третий: Решаем уравнения
Сначала выразим $ T1 $ из первого уравнения:
[
T1 = \frac{85,5}{V - 5}
]
Теперь подставим это выражение во второе уравнение:
[
(V + 5) \times \left(\frac{85,5}{V - 5} - 5\right) = 85,5
]
Здесь начинаются немного трудные преобразования, но мы справимся! Раскроем скобки и приведём всё к одному знаменателю:
[
\frac{85,5V + 427,5}{V - 5} - 5V - 25 = 85,5
]
Это страшновато выглядит, но теперь остаётся аккуратно привести подобные члены и решить получившееся уравнение. После всех преобразований получится простое квадратное уравнение, которое даст нам правильный ответ:
[
V = 10 , \text{км/ч}
]
Таким образом, собственная скорость лодки в спокойной воде — ровно 10 километров в час.
Ответ GPT
Обозначим скорость лодки в неподвижной воде как v км/ч. Скорость лодки против течения будет v - 5 км/ч (так как скорость течения реки равна 5 км/ч), а скорость лодки по течению будет v + 5 км/ч.
Время, затраченное на путь против течения, можно выразить как:
t₁ = 85.5 / v - 5
Время, затраченное на путь по течению, будет:
t₂ = 85.5 / v + 5
Согласно условию задачи, время на обратный путь (по течению) на 5 часов меньше, чем на путь против течения:
t₂ = t₁ - 5
Подставим выражения для t₁ и t₂ :
85.5 / v + 5 = 85.5 / v - 5 - 5
Умножим все уравнение на (v + 5)(v - 5) для избавления от дробей:
85.5(v - 5) = 85.5(v + 5) - 5(v² - 25)
Раскроем скобки:
85.5v - 427.5 = 85.5v + 427.5 - 5v² + 125
Сократим 85.5v :
-427.5 = 427.5 - 5v² + 125
Приведем все к одной стороне:
-427.5 - 427.5 - 125 = -5v²
-980 = -5v²
5v² = 980
v² = 980 / 5 = 196
v = √(196) = 14
Таким образом, скорость лодки в неподвижной воде составляет 14 км/ч.
Попа в том, что мне некогда было решать и проверять, какой ответ правильный. Да, кому-то 1 минуту, а я на совещании спрашивал ботов и просто скидывал результат.
гигачат очень слабая модель, если бы его пустили на арену он бы там на сто последнем месте был
в телеграме есть джемини, нормально математику понимает, хотя тоже не идеально

Gemini 2.5 Pro возглавил все ИИ-бенчмарки: Google возвращает корону технологического лидера