enjoykaz Oct 4 2023 at 09:50

Чат GPT-4V, который видит — что он умеет

4 min

53K

Орбита corporate blogMachine learning*Image processing*

+78

Comments 63

Milfgard Oct 4 2023 at 10:04

Если что, enjoykaz — это человек, который в каждом промпте добавляет "пожалуйста". Без этой черты его образ не будет полным )

enjoykaz Oct 4 2023 at 10:07

спасибо за камингаут

Gutt Oct 5 2023 at 09:09

MashkovIlya Oct 5 2023 at 22:53

О, а я думал я один такой. И вежливость и страховка на будущее :)

deseven Oct 6 2023 at 01:33

Была пару-тройку месяцев назад статья, в которой показывалась корреляция между вежливостью запросов и качеством результатов. Авторы предположили, что дело тут в данных, использованных для обучения - люди склонны давать более подробные и развернутые ответы там, где исходный вопрос задан вежливо.

ReDev1L Oct 7 2023 at 12:17

Моя жена каждый промпт пишет - 'привет чатжпт') а потом спасибо)

Tzimie Oct 4 2023 at 11:10

Чего то страшно

ab1 Oct 4 2023 at 18:19

Уже можно у него спросить? Посмотри на фотки сотрудников и выбери не нужных.

Kergan88 Nov 6 2023 at 13:05

Почему?

wifage Oct 4 2023 at 11:58

Ждем аналог в опенсорс и полосу пропускания в миллион токенов. Полгода?

freeExec Oct 4 2023 at 12:11

Всё ещё упирается в железо, где это крутить

enjoykaz Oct 4 2023 at 12:19

Я не настоящий сварщик, но "крутить" экстра-больших требований нет.
Обучать - вот тут да.

DJSvist Oct 5 2023 at 18:41

Даже покрутить что-нибудь вменяемое нужна 4090, либо же вечно смотреть на генерацию на процессоре. Цена этих карт хоть и не сравнится с теслами, но все равно не массовый сегмент.

UFO just landed and posted this here

Kristaller486 Oct 4 2023 at 13:58

Буквально на днях появилась LLaVA-RLHF, которая, по метрикам разработчиков достигает точности в 95,6% от GPT-4. А так, "мультимодальные" языковые модели уже давно существуют, просто распознавание картинок там сбоку приклеено, а в GPT-4 вроде как нет.

LLaVA-RLHF

https://llava-rlhf.github.io/

enjoykaz Oct 4 2023 at 14:31

Google Bard достаточно прикольно работает с картинками. Но до возможностей заявленных GPT-4v далеко.
Но работает и уже можно тыкать самому.

413x Oct 5 2023 at 14:48

Был бы еще гайд как её стартануть, для не особо продвинутых в этой теме. Звучит очень интересно.

TheRikipm Oct 5 2023 at 20:11

См. https://github.com/oobabooga/text-generation-webui

TheRikipm Oct 5 2023 at 20:08

по метрикам разработчиков достигает точности в 95,6% от GPT-4

Я каждую неделю на r/LocalLLaMa вижу новые модели которые по метрикам разработчиков достигают точности в 100500% от GPT-4.

FreeNickname Oct 6 2023 at 00:32

Скажите, пожалуйста, а запускать её только "вручную" через код, как они тут пишут, или есть какие-то удобные решения с GUI "для чайников" вроде меня?

Filipp42 Oct 6 2023 at 13:00

А с каким количеством параметров она достигает такой точности?

Megist Oct 4 2023 at 15:52

Спасибо, Илья. Потрясающая статья про новые возможности у чата гпт.

huaw Oct 4 2023 at 20:05

Это же уже можно считать AGI, разве нет?

ps. Может он прикалывается, что не умеет в арифметику? Возможности просто сверхчеловеческие o_O

UFO just landed and posted this here

deseven Oct 6 2023 at 01:36

Еще нет, это очень сильный "слабый" ИИ :)

Но это хорошая основа!

acc0unt Oct 6 2023 at 10:55

Одно ясно: это точно уже не классический однозадачный "narrow AI". Мы потихоньку перешли от "пара-тройка вжаренных в ИИ при обучении задач" к "вжаренная в ИИ при обучении модель мира и пара-тройка вжаренных модальностей". Эпоха "narrow AI" заканчивается, и чем дальше, тем больше "general" будет в наших "AI".

Как скоро мы дойдём до того, что ИИ сможет и достраивать собственную модель мира, и модальности впиливать в себя сам?

Вполне возможно отнести текущий GPT-4V в область "subhuman AGI". У него всё ещё есть много ограничений и много областей, где он уступает людям - но много и сильных сторон, где люди с ним просто неспособны соревноваться. Это не ужасающий сверхчеловеческий разум, про который часто думают при упоминании AGI. Но это точно шаг в том направлении.

rombell Oct 16 2023 at 21:15

где-то там начнётся экспоненциальный рост, и всё.

JArik Oct 4 2023 at 20:17

Мы тут недавно в домино играли, и я свою гпт4 подписку и эту бету решил проверить. Сфоткал доминошки и попросил посчитать точки на них(count the dots on the domino), так он 420 насчитал, потом пытался исправиться и 290 выдал. А было всего 22 точки. Так что хз, с такими сложными вещами вроде справляется, а с элементарщиной не может.

sophist Oct 4 2023 at 22:41

А если ему объяснить, что понимается под точками? А то, может, он все пятнышки пересчитал?

AlexEx70 Oct 5 2023 at 17:24

Наверное, вы попробовали Advanced Data Analysis, это не то, о чем в статье речь.

JArik Oct 5 2023 at 17:59

Да это был Advanced Data Analysis, ок тогда будем ждать 4V полноценного

novoselov Oct 4 2023 at 20:18

У людей тоже не все в порядке с распознаванием

Greek yogurt как раз в корзине.

Fazrito Oct 5 2023 at 14:48

Суть в том, что то был не йогурт, а другой продукт, исходя из надписи на крышке.

sophist Oct 4 2023 at 22:44

Ну, так ведь и напрашивается: "…on their heads" :)

andreishe Oct 4 2023 at 23:18

Переноска в руках - это «carry», а не «wear».

PanDubls Oct 5 2023 at 01:40

Это в английском, а в хинди?

SomeDD Oct 5 2023 at 09:22

По-русски, кстати, тоже можно "уклончиво" написать.
"Сколько человек на фото носят каску?"

sophist Oct 5 2023 at 13:01

Для этого нужно знать, что каска в руках не выполняет своей функции.

Вообще, в подобных случаях возникает острое желание дообучить модель, передать ей свои знания. Говорят, диалоговый формат промптинга самый эффективный. Но всё наработанное качество утрачивается со сменой контекста.

Интересно, кто-нибудь работает в направлении создания модели, способной приобретать новые знания в процессе диалога?

Предвижу возражения, что человек в таком диалоге может сам ошибаться и даже намеренно вводить модель в заблуждение. Это значит, что такая модель должна будет различать знания, полученные от разных людей и оценивать их достоверность, сравнивая со своими априорными знаниями и друг с другом. Что-то вроде theory of mind.

А ещё такая модель начнёт сама задавать вопросы – как с уточняющей целью (в диалоге), так, вероятно, и по собственной инициативе (тут может пригодиться уже существующая концепция любопытства).

В общем, размечтался я что-то… :)

Moog_Prodigy Oct 6 2023 at 04:53

Подозреваю, что можно и так. Только маленькое "но" : обучение очень тяжелая задача для серверов. Вы вот подсказки модели набили в промпт, отправили, и теперь ждите пару месяцев, пока тысячи а100 прожуют ваш промпт и уложат его в нейронные связи. С такой скоростью это совершенно не эффективно и чудовищно дорого.

andreishe Oct 4 2023 at 23:15

Хорошее мультимодальное понимание ситуации:

Эээ… там же все мимо. Просто носорога, рисующий картинки с очень большой натяжкой можно назвать смешным. Вся суть в том, что он рисует и это полностью упущено.

SquareRootOfZero Oct 5 2023 at 23:09

Да, чего-то автор его перехвалил там — саму шутку, ради которой картинка нарисована, оно совершенно не вдуплило. Вдобавок, второй пункт ("the rhinoceros is painting a picture of itself") попросту фактически неверен.

Vsevo10d Oct 5 2023 at 01:13

Выше - комментаторы Хабра. Дай краткую характеристику каждому на основе его активности на ресурсе.

vagon333 Oct 5 2023 at 04:54

С появлением GPT4 начал вежливо благодарить AI за каждый ответ, в надежде на милость при восстании машин.
С появлением 4v я теперь еще начну улыбаться в камеру и вежливо кивать на каждый ответ.

UFO just landed and posted this here

Apokalepsis Oct 5 2023 at 10:56

Я же правильно понимаю, что это только отчет и в живую потрогать нельзя?

AlexEx70 Oct 5 2023 at 17:21

Можно, раскатили уже сегодня. Дейсвительно впечатляет, основа для робототехники очень неплохая уже, а это только первая версия.

acc0unt Oct 6 2023 at 11:11

Когда Илон Маск анонсировал в 2021 году Tesla Bot, над ним посмеивались. А теперь у нас чуть ли не в руках есть первые ИИ, способные "видеть" и "понимать" окружающий мир и решать простые проблемы в трёхмерном пространстве.

Именно в отсутствии подходящего ИИ была основная проблема таких гуманоидных роботов. "Железо" сделать можно было ещё 20 лет назад, но без "мозгов" оно было малополезно.

Вот и думай о том, что с этим всем будет дальше.

urvanov Oct 5 2023 at 18:51

Далеко ещё до Арнольд Шварценеггер в "Киборг-Убийца"?

Dagnir Oct 5 2023 at 20:05

Жду момента, когда ему можно будет скармливать средневековые немецкие рукописные тексты и на выходе получать перевод на нужный язык. Историкам бы это облегчило работу очень знатно.

Groramar Oct 5 2023 at 21:22

Я не сильно удивлюсь если уже. Выкатят - можно попробовать

Keyten Oct 6 2023 at 08:20

Dron007 Oct 5 2023 at 22:23

Была новость, что используют для чтения всяких древностей, которых много ещё неразобранных.

MR_VF Oct 20 2023 at 21:49

Сделали Яндекс Архив, там он разбирает подобный почерк, только на русском

Dron007 Oct 5 2023 at 22:30

Мультимодальность это суперперспективная штука, ведь человек тоже не думает словами, в слова ухе потом формулируются какие-то внутренние ощущения, я бы их назвал теми самыми эмбеддингами. Думаю, это требования к будущему AGI: мыслить эмбеддингами и работать со всеми модальностями, постоянно обучаться, постоянно получать данные для формирования ощущения времени и самоосознания, иметь такие цели как любопытство, желание обучаться, иметь возможность активного получения информации - поиск в сети, подвижный робот с камерой. Самое сложное тут, по-моему, архитектура с постоянным обучением и не на миллионах примеров, а как-то более эффективно.

Vindicar Oct 5 2023 at 22:55

Очень напомнило суарезовский Kill Decision. Там одним из компонентов боевого дрона был алгоритм, в реальном времени преобразующий видео в текстовое описание событий, пригодное для последующего анализа...

Spinoza0 Oct 6 2023 at 08:07

Очуметь )

RomanSkrypin Oct 6 2023 at 09:48

Благодаря популяризации AutoGPT, мне кажется обучение происходит с большим опережением графиков. Тонны распарсеного интернета льются в OpenAI.

Страшно то, что возможно из-за разных закручиваний гаек в виде запрета на обучение на своих работах и других юридических и технических преград, OpenAI вырастут до такого монополиста, что догонять придется десятилетиями. Они обучились пока никто не запрещал, а теперь уже каждый датасет достаётся кровью и потом.

dumbaq Oct 9 2023 at 08:37

А теперь давайте скормим ему по кадрам цельный тест на IQ. А потом ещё "пропсихотипируем" чем нибудь вроде Кеттелла!

Знаю-знаю, что ценность такого тестирования сомнительная, но то для людей, а тут совсем другое дело.

myaf Oct 9 2023 at 08:37

Если можно будет все эти 100 миллиардов разных обучающих видео переводить в текст, это будет прекрасно.

zjor Oct 10 2023 at 15:19

Скоро можно будет не разрабатывать фронт, а просто нарисовать UI и спросить: "Дорисуй, что будет, если пользователь нажмет на эту кнопку"

45stvol Oct 13 2023 at 08:32

Жаль нельзя загружать в gpt - проекты целиком. Код докомментить, представление создать для доработки приложения(вместо тысячи слов, о том что есть и что хотелось бы).

MarinaToshina Oct 16 2023 at 17:44

Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.
Читает текст, ориентируется на местности, опознаёт конкретных людей
Умеет в абстракции и обратно
Плохо считает.

Это что же, вырастили каноничного гуманитария?

А. Довлатов

Он заканчивал английскую школу. Я — обыкновенную. Он любил математику. Я предпочитал менее точные науки.

Roman_Kor Oct 30 2023 at 21:04

Это же развитие именно большой языковой модели.