Comments 80
А как вы поняли, что это теперь не франкенштейн из нескольких моделей, а одна?
Выдержка из поста:
Prior to GPT-4o, you could use Voice Mode to talk to ChatGPT with latencies of 2.8 seconds (GPT-3.5) and 5.4 seconds (GPT-4) on average. To achieve this, Voice Mode is a pipeline of three separate models: one simple model transcribes audio to text, GPT-3.5 or GPT-4 takes in text and outputs text, and a third simple model converts that text back to audio. This process means that the main source of intelligence, GPT-4, loses a lot of information—it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.
With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.
Да это логично. Как обеспечить такую резвую реакцию на голос если бы распознаванием занималась отдельная система? Обычно это работает так: фраза записывается (этот этап довольно сложный т.к. надо определить конец фразы при попмощи традиционного алгоритма, а не нейростети), передаётся в распознавлку, а потом текст - в нейронку. Т.е. работа нейросети не может начаться до того как пользователь закончит фразу.
Вообще-то делали быструю реакцию на голоса умельцы, но это, конечно, всё равно не полноценное аудиовосприятие. Я вот не совсем понял, что с видео, обучали ли её именно на видео или только на картинках. От этого будет многое зависеть, сможет ли естественным образом увязывать аудио и видео, оценивать скорость разных явлений и так далее.
Если описывать видео текстом, то будет такая же ерунда как с преобразованием голоса в текст и обратно. Саманту (Her) так не склепаешь. Вот, как раз по этой теме Джим Фан пишет, что нет там полноценной обработки видео, как он предположил вначале и отмечает, что в Gemini закладывается полноценная работа с видео. А он там вообще отдельный видео кодек предлагает. В общем, будет ещё чем заняться в ближайшие месяцы и годы. У человека на вход идёт поток от всех сенсоров сразу, а также ещё и внутренние всякие датчики, не все выносимые на уровень сознания. Конечно, это побочки биомеханизма, не всё нужно нейросети, больше для роботов актуально, но полноценный ввод был бы полезен, можно ещё и с ИК-датчиками, магнитного поля, новостными лентами. Это будет что-то интересное.
Я думаю, это как раз связанные вещи. Откуда берётся интеллект? Из одних лишь текстов не выковырять полноценной картины мира. Все наши абстракции восходят к самым базовым ощущениям, которые мы получает из чувственного опыта, вспоминая свои детские падения и открытия. Ещё в детстве мы строим модель мира исходя из физического восприятия и на неё нанизываем всё остальное. В нейросеть же запихивают тексты и она даже может себе представить по ассоциациям, как выглядит единорог, к примеру, но насколько больше она получает увязывая его с изображением или глядя на падающий лист, из чего может сформировать даже закон гравитации. Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.
Интеллект это не только работа с текстом. ИИ должны будут решать массу задач на работу с пространством и на понимание времени. Не так давно читал работу, в которой обнаружили, что такие задачи намного лучше решаются если ИИ думает картинками, сохраняя промежуточные результаты "внутреннего взора". Мы тоже так решаем задачи, формируя какой-то внутренний образ, даже если преобразовываем его в текст.
Не думаю что у интеллекта есть требование наличия мультимодальности.
Главная причина того что исследователи работают в этом направлении - имеющейся текстовой информации недостаточно, а значит информацию нужно собирать отовсюду, до куда дотянемся, и самое простое - это аудио-видео.
Та же Sora это не просто система для генерации видео, она сформировала представления о массе физических явлений - трение, вязкость жидкости, преломление лучей, потому что обучалась на видео и упаковывала массу данных, находя закономерности.
Так как Sora диффузионная модель, то она и правда находила закономерности, но не те, что вы перечислили.
Диффузионные модели во время обучения получают картинку и начинают её зашумлять, чтобы потом научится из шума восстанавливать изображение.
А чтобы восстанавливать что-то конкретное, нужно текстовое описания картинки - этим занимается модель трансформер (в данном случае GPT-4 Vision), которая очень подробно описывает кадр. По их словам, прорыв произошел когда вместо краткого описания в 1-2 строки для обучения они начали генерировать 4-5 строк текста с максимально подробным описанием.
Тут нет реального понимания физики процесса воды, просто куча кадров как она текла и комбинирование этого в зависимости от получившегося при генерации рельефа.
Поэтому, в не специально отобранных удачных видео для презентации, будет много артефактов и "анти-физики", о чем создатели сами и говорят, что модель может путать лево и право, запутаться со сложной физикой и у неё проблемы с понимаем причинно-следственных связей.
НЕТ! Это именно постройка модели.
Понимание = постройка модели. Мало того, мы можем построить модель без понимания (например квантовая физика, отлично работает пока ты просто считаешь, не пытаясь понять как это внутри устроено)
Как работают диффузионные модели генерации? мы ставим нейронную сеть в такие условия, делаем один промежуточный скрытый слой значительно меньше по объему чем каждые последующие, вид она принимает такой 'вход >-< выход', подавая одно и тоже на вход и выход, что у нее не остается выбора как разобраться что же на входе. Затем мы выкидываем то что в начале, а входом становится вот эта узкий перешеек, тот слой с малым количеством весов. Вектор этих весов становится описанием картинки на каком-то выдуманном нейросеткой языке. Шум в этих весах нарисует случайную но правдоподобную картинку, а дальше мы на основе другой нейросетки пытаемся понять, то что нужно нарисовала нейросеть или нет, если нет - подправляем и снова проверяем... там чуть сложнее но идея именно такая
Когда начинаешь изучать, как же выглядят веса в слоях, то там именно признаки, чем глубже слой тем сложнее признак (сначала просто линии и градиенты, затем геометрические фигуры, потом буквально носы, усы, лапы, шерстинки).. заглянуть глубже в сложные нейронные сети мы не можем (там сотни миллиардов параметров) но экстраполируя можно предположить что там и дальше происходит именно то что мы имеем в виду - модель начинает понимать, как мир устроен, строит его модель.
И да, на первых порах она упрощает, модель не совершенная, с глюками, это нормальное следствие выбора инструмента. Просто другого у нас нет.
Интересно, а возможен ли ИИ, "понимающий" смысл весов нейросети? Очень бы помог т.к. пока что вся работа над ИИ сводится к тряске чёрного ящика с кучей информации и выборе более-менее удачной образовавшейся структуры.
Да анти-физика есть и в тех видео, что нам показали. Есть момент, где на стройплощадке погрузчик задевает человека и при этом отпрыгивает сам погрузчик, а человек как стоял так и стоит)
погрузчик задевает человека
в обучающей выборке таких событий не было или недостаточное количество, сеть не знает что произойдет дальше.
это кстати очень плохой недостаток, когда сетка будет размышлять образами, она не поймет чем это опасно!
в обучающей выборке таких событий не было или недостаточное количество,
В моей обучающей выборке точно не было события "карьерный самосвал "БЕЛАЗ" наталкивается на антилопу гну" — да, готов поспорить, что и в Вашей тоже. Однако тем не менее и я, и Вы сможем со стопроцентной точностью предсказать, кто из них поедет дальше.
Ваша обучающая выборка на несколько порядков объемней той что кормили нейронке. Не уверен, использовали ли сны для формирования SORA, но по уму должны. Вы, благодаря интернету, видели сотни и тысячи событий как одна машина врезается в другую, и смогли экстраполировать. Плюс, скорее всего ваши знания подкреплены текстовыми описаниями родителей с эмоциональной окраской...
Я согласен, что там нет понимания физики в привычном нам аналитическом виде, на уровне формул. Но для того, чтобы сформировать латентное пространство вмещающее все возможные варианты действий, например, с жидкостью, ей нужно в глубоких слоях сохранить какие-то абстракции, описывающие состояние жидкости, в том числе и вязкость. Далее, при присоединении текстового корпуса, она уже может и увязать эту абстракцию со словом. Но в дальнейшем, решая разного рода формальные и бытовые задачи, та нейросеть, у которой в векторном пространстве не только буковки, а ещё и визуальное представление того, что это за понятие, сможет быть намного более эффективной. Например, робот, знающий по видео о свойствах материалов, может наступить на бетонную плиту через яму, но избегать картонных листов. Или, там, предупредить Аннушку, что масло разлито. Конечно, он может это получить и в процессе обучения, угрохав себя сотню раз, например. Но вот человек как-то по-другому обучается, не на миллионах смертей, потому что строит в голове модель. Так и выжил в процессе эволюции.
Вот, небольшой эксперимент. Прочитайте фразу "эта жидкость была очень вязкой". Что у вас происходит в голове для её понимания? Отловить этот момент можно когда мы о чём-то задумались и читаем текст, не воспринимая его смысл. Потом сосредотачиваемся и бах, что-то произошло. Что? Или допустим, кто-то спросит у вас "что такое вязкость"? Что появляется в голове в первую очередь? Уверен, визуальный образ тягучей жидкости, возможно, даже ощущения и ощущения-ожидания её поведения. То есть вот сейчас я её буду лить, а она льётся не так как вода. У вас не появляется формул вязкости или определений из учебника. Понимание я определяю как привязка нового объекта к существующей у нас ассоциативной сети. Понимание - основополагающая часть интеллекта. Для искусственных нейросетей понимание - размещение объекта в векторном пространстве в том месте, где рядом будут располагаться ассоциативные понятия. И вот если мы расширяем это векторное пространство визуальными данными и пониманием поведения объекта, интеллектуальные возможности возрастают.
Update: Да, и ещё такой момент. Многие если не все наши образы завязаны на окружающие нас явления, на наши ощущения. Мы переносим понятия из одной сферы в другую. Они становятся как бы новыми красками в нашей палитре выражения и проявления возможностей. Например, представьте себе того же ИИ-психолога, которому человек говорит "я как будто плаваю в патоке". Конечно, нейросеть поймёт его на каком-то уровне, как мы изучаем английские идиомы, даже не погружаясь в их происхождение. Но намного более глубоким, на уровне "ощущений" будет понимание если нейросеть видела и понимает что такое вязкая жидкость, видела мошек, попавших в мёд, а может быть и в виде ощущений, полученных от роботов сама плавала в густой жидкости, наливала мёд и так далее. Этот физиологический опыт может быть в неё подгружен от роботов, думаю. Нейросети же можно объединять. Так вот, обладая настолько расширенным понятийным аппаратом, она глубже поймёт состояние собеседника и в итоге возможно даст более качественный совет. Это и будет проявление более развитого интеллекта.
Всё логично, но есть контраргумент: люди, слепые с рождения, каким-то образом имеют интеллект, сравнимый со здоровыми, хотя их мозг недополучил львиной доли информации для обучения. Хотя проводя аналогию с неросетью, даже мозг новорождённого не является пустышкой (врождённые инстинкты и т.д) когда неросеть без обучения - просто матрица с нулями.
Да, аргумент весомый, тоже о таком думал. У них, как известно, роль зрения берёт на себя слух, осязание. В детстве много времени уходит на адаптацию. Визуальные свойства предметов они оценят косвенно, физические тактильно, через слух. Поэтому они всё равно ближе к мультимодальным нейросетям. Ну, и насчёт развитости, читал, что они слабее развиты как из-за отсутствия зрения, так и из-за других бытовых и социальных проблем в детстве и не только. Кроме того, от них не требуется решать визуальные задачи или как-то учитывать визуальные параметры, что может потребоваться от нейросети.
С видео непонятно, в прес релизе заявлены текст, аудио и изображения, то есть она теперь их может как понимать, так и генерировать. Про видео не говорится. Но в одном из примеров была показана генережка 3D объекта. Так что диапазон модальностей там возможно больше. Эмпирически пока не проверить, выкатили пока только возможности с текстом и принятием изображений, остальное пока тестят на безопасность.
Пробовал вчера вечером через сервис vsegpt.ru (платно), скорость и качество ответов на профессиональные вопросы удивили - не ожидал такого роста к gpt4, при том, что это не версия 5, а всего-то дообученная gpt4...
Это не дообученая gpt4, это совершенно новая модель. Достаточно того что там новый токенизатор - если он меняется, меняется все. Раз модель на новой архитектуре, она обучена с нуля.
Четверка в названиии это видимо чтоб от нее не ждали чудес и не говорили "гпт-5 не продвинулся по сравнению с гпт-4, акции open-ai пора сливать" )
Маск предлагал остановится на текущем уровне развития ИИ до выработки правил, но все только посмеялись над идеалистом.
Есть версия, что эта волна "ИИ всех погубит" -- работа на политиков, лоббизм регуляторов. 10мин, англ. https://www.youtube.com/watch?v=5NUD7rdbCm8
Маск гонит волну ИИ всех погубит уже очень давно, он основал ОпенАИ именно под таким лозунгом. Что нужна компания которая создаст общедоступный, свободный ИИ. С созданием передового ИИ компания отлично справилась, а вот контроль над ней Маск не удержал, от чего она продалась Микрософту провалив своё назначение.
Есть версия, что эта волна - работа самих ИИ корпораций, которые очень хотят, чтобы на всех наложили правила, которые соблюдать могут только они. А то получится, как с рисующими ИИ, где opensource уже без разговоров обошёл всех.
Пробовал через сервис https://arena.lmsys.org/
В целях "просто посмотреть" и сравнить - сервис идеален.
Даже написал "творческий проект" школьника. Вполне вменяемо. Пару ошибок в коде исправил и всё работает.
Но, разумеется если много запросов, то сервис выдаст бан. Это именно для попробовать.{Ну а нехорошие люди, использующие не по назначению,. могут чистить историю и прятать IP}
Спасибо за рекомендацию сервиса. Прикрутил их API себе к VSCode (через Continue), ибо не царское это дело — тесты писать.
КОНИ СТОП!
У этих горных ... по умолчанию включена опция перенаправлять запросы к GPT-4o на GPT-4-Turbo. Выключается в общих настройках аккаунта.
А где про синтез 3д-объектов? Я не засёк в материалах, но многие говорят.
Вот тут демо можно посмотреть, их показывали на презентации: https://x.com/estebandiba/status/1790285228981862720
Это и у них на сайте есть в группе текстово-графических примеров. Кстати, там есть пример где создаётся монета и потом просят звук монеты создать. Вот тут интересно насколько это управляемо и параметризуемо. Учитывая, что она поёт на ходу меняя скорость, высоту голоса, то вполне может оказаться, что там уже есть всё для генерации музыки и тогда она просто заменит Suno и Udio. Может быть её на музыке не обучали, конечно, но кто знает.
Использую от сегодня по апи ключу, я поражён, это много лучше чем 4
Ну что ж, революции не случилось, а лишь спровоцировал Шлёма ускорение наступления AI-зимы.
Меня впечатлило и заставило задуматься то, как она реагирует на собаку, например, или как оценивает причёску человека. Все люди реагировали бы по-разному, с разными эмоциями и выбор именно определённой эмоции индивидуализирует ИИ. Текстовое общение по умолчанию ведь шло просто по фактам. Да, можно задать любой промпт, но всё равно текст человек начал воспринимать какие-то несколько сотен лет назад, он не закрепился глубоко в эволюционных механизмах и не влияет на нас так уж сильно в отличие от тона речи, эмоций. К чему это всё приведёт сложно сказать, может и как в том самом Her, вполне возможны какие-то даже психологические травмы, кто-то обязательно покончит с собой из-за ИИ. Много необычного нас ждёт.
Отличные новости! Чем быстрее мы оккнемся в новую реальность тем быстрее к ней адаптируемся. Жить с домокловым мечем не хочется
Думаю развитие ИИ приведёт к тому, что многие потеряют работу, но для нормальных стран это не проблема. Введут базовый доход, люди будут заняты в других сферах, будут открывать свои бизнесы работать на себя и точно так же использовать ИИ, которые будут заменять им секретаря и бухгалтера например. Производительность труда и качество жизни вырастет.
Другое дело что будет в странах СНГ ? Сомневаюсь, что у нас введут базовый доход.
ИИ не существует, исходя из этого остальное не имеет смысла.
Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека. Единственное, пока не может взаимодействовать с физическим миром. Но и это решат какой-нибудь моделью RobotGPT (нечто похожее уже есть, осталось пару поколений...), который будет отвечать за взаимодействие с физическим миром. И все. Дальше будет вопрос экономики, где дешевле будет - поставить робота или человека. Будущее пока за интеллектуальным трудом.
Да, ИИ пока не существует, но сейчас модель 'умнее' среднестатистического человека
Бегство от ИИ достигло уровня лишающего титула ЕИ большей части человечества. Интересно бегство продолжиться когда ИИ превзойдет лучших людей в интеллекте?
Типо да, ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения. Но это не ИИ это лишь чутка глупых вычислений
ГПТ-10 создал теорию всего, единое мировое государство, вылечил все болезни и создал гипердрайв за первые пять секунд после включения...
...Потом открыл портал и ушел в него. Больше его никто не видел. Сидим думаем - жить без ИИ или попробовать создать другого?
Потом открыл портал и ушел в него. Больше его никто не видел.
По этому сценарию кино уже сняли. Не продадите.
В тот момент когда робот сможет собирать и обслуживать таких же роботов, появится технология самопроизводства, экономика станет другой.
Главными станут (в порядке уменьшения ценности) - производители чипов для ИИ (или скопом - электроники) + производители софта и самого ИИ (большая часть их стоимости те же чипы для ИИ) + производители энергии + по мелочи (реально наименьшая доля) материальная часть (металы, пластики, масла и т.п.)
Повторяю - как только ИИ сможет заниматься самообслуживанием, людям тупо больше нечего будет делать. Если заранее к этому не подготовиться, будет катастрофическая безработится, голод и т.п.
Голода-то избежать можно. Если они себя будут делать, то и нам еду смогут сделать)
Тут другая проблема. Я бы сформулировал его не "людям тупо больше нечего будет делать", а "люди тупо станут не нужны"...
собрать на самом деле фигня (можно так спроектировать что собирать их проще) проблема в диагностике и починке.
А старого на помойку? разобрать? Собирать из сломанного - получишь сломанного.
Такой подход будет сильно ограничивать итоговое количество роботов, начиная с какого то момента затраты на такое обслуживание сравняются со скоростью роста всего роя.
Речь идет о программе, которая разберется что не так, сумеет разобрать и заменить сбойный модуль/деталь и суметь его на переработку отправить. Таких не существует... Напомнить про кнопку 'исправить проблему автоматически' у майкрософт windows?
Всё как легко и просто у вас, пару поколений и всё будет решено.
И что значит это "умнее"?
Полагаю "умнее" в данном случае значит - сравнительно лучшие результаты, относительно медианных показателей людей в различных задачах, таких, которые ИИ может потенциально решить с учётом ограничений интерфейсов взаимодействия его с миром. Приоритетом в бесконечном множестве подобных задач будут те, которые способны принести пользу максимальному числу людей и могут быть потенциально решены относительно большим числом людей. Т.е. никаких расчётов свёртывания белков, расчёта квантовых полей, вычислений оптимальных форм болида f1.
Эти модели обладают интеллектом по вашему? Они ничего не выполняют сами, человек дает задание - они делают.
Я считаю, что одним из признаков наличия интеллекта это наличие самопобуждения, саморазвития и прочих "само-", на что пока не способны эти псевдо-ИИ.
Это как машина без двигателя, её можно только толкать самому.
Все эти "само" не включаются в определение интелекта.
Чего вы взяли, что существует какое-то единственно правильное определение этого слова? В той же вики об этом прямо пишется.
И в вашем определении, например, идет речь только про человеческий разум.
Также можно немного вникнуть в работу этих моделей и потом задаться вопросом, а можно ли это называть интеллектом?
https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
Оно совпадает с реальностью настолько, насколько и твоё. Это мнение и оно субъективно.
Ставятся кем/чем? Кто тебе поставил задачу написать ответ на мой комментарий? Голоса в голове, бог и т.д.?
Что такое "сильный ИИ"? Что за ограничения?
Я пользуюсь ChatGPT почти с запуска их браузерной версии, а платной версией с самого начала и до сих пор продолжаю использовать в работе и в жизни, и от слова совсем не понимаю речей про замену человека, потерю многими работы и прочим бредом.
Он упрощает некоторую работу? Да.
Он помогает в поиске решения? Да.
Он предлагает решения? Да.
Может он делать за меня мою работу? Даже близко нет, более того за ним самим нужно тщательно следить, а следовательно хоть немного разбираться в этой теме. Не говоря уже о том, что нужно составлять ТЗ для него, что уже немаловажная часть работы и требует понимания предметной области.
"меньше цены" или "меньше ценности"?
Везде в новостях трубят что бесплатные юзеры получат к ней доступ. У меня есть бесплатный аккаунт но как получить доступ к этой модели так и не понял:)
Возможно, на бесплатных еще не раскатали.
Она сама включается вместо 3.5, но спустя примерно 5-7 запросов вылезло окошко, что бесплатные токены кончились, и появятся только через два часа, а пока опять 3.5.
К слову, код пишет круто! 3.5 о криптографии на эллиптических кривых в SageMath было бессмысленно спрашивать, а 4о с первого раза рабочий код выдаёт, поясняет красиво.
Как это выглядит в интерфейсе? Вам похоже повезло с ранним включением, у меня пока нету:
Это точно все тотже 3.5. Вот ответы 4о для сравнения:
В коддинге, кстати, улучшения заметны только если с 3.5 сравнивать. По сравнению с 4-турбо улучшения спорные. По первым впечатления - ошибок меньше, код качествнней, но при этом плохо следует инструкциям, просто игнорируя те, которые не нравятся. Похоже надо ждать следующую платную версию. (i-am-good-gpt2-chatbot на арене был сильно лучше чем релиз 4o)
Попробовал поговорить с обновой, и первое впечатление осталось очень даже позитивное. Немного разочаровало, что модель не учитывает предыдущую историю переписок и общаться с ней надо начинать с заново. Однако, она на лету конспектирует и запоминает необохдимую инфу - факты о юзере, контекст беседы, задачи, цели и т.д.
Очень хочется попробовать её в качестве переводчика.
Попробовали, первое впечатление было хорошее, а вот потом...
Кратко: есть ощущение, что 4-омни стал "человечнее". И это минус. Вместо информации и корректного ответа зачастую получаем мнение и неточности.
Есть четкий чек-лист шагов какого-то процесса, он вместо выдачи этого чек-листа, опять же, по человечески догадывается что должно делаться в ходе этого процесса, выбить из него формальный чек-лист нереально. Спрашиваешь кому принадлежит цитата, он анализирует ее смысл и делает вывод кому она могла бы принадлежать, кому она на самом деле принадлежит - ему по фиг, надо специально уточнять.
Точность и достоверность ответов стала ниже, а вот спекуляций и рассуждений стало больше. В принципе в тех областях, где точного ответа нет, это плюс. Но там где он нужен - омни просто неюзабелен, использовали 4-турбо в результате.
Не пойму, зачем автор так врёт? Вот что мне написала новая модель без платной подписки: "К сожалению, я не могу рисовать изображения. Однако, я могу предложить описания или помочь найти инструменты, которые помогут тебе нарисовать кота. Хочешь, чтобы я помог с этим?"
GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель?