Pull to refresh

Comments 63

Если что, enjoykaz — это человек, который в каждом промпте добавляет "пожалуйста". Без этой черты его образ не будет полным )

О, а я думал я один такой. И вежливость и страховка на будущее :)

Была пару-тройку месяцев назад статья, в которой показывалась корреляция между вежливостью запросов и качеством результатов. Авторы предположили, что дело тут в данных, использованных для обучения - люди склонны давать более подробные и развернутые ответы там, где исходный вопрос задан вежливо.

Моя жена каждый промпт пишет - 'привет чатжпт') а потом спасибо)

Уже можно у него спросить? Посмотри на фотки сотрудников и выбери не нужных.

Ждем аналог в опенсорс и полосу пропускания в миллион токенов. Полгода?

Всё ещё упирается в железо, где это крутить

Я не настоящий сварщик, но "крутить" экстра-больших требований нет.
Обучать - вот тут да.

Даже покрутить что-нибудь вменяемое нужна 4090, либо же вечно смотреть на генерацию на процессоре. Цена этих карт хоть и не сравнится с теслами, но все равно не массовый сегмент.

UFO just landed and posted this here

Буквально на днях появилась LLaVA-RLHF, которая, по метрикам разработчиков достигает точности в 95,6% от GPT-4. А так, "мультимодальные" языковые модели уже давно существуют, просто распознавание картинок там сбоку приклеено, а в GPT-4 вроде как нет.

LLaVA-RLHF

Google Bard достаточно прикольно работает с картинками. Но до возможностей заявленных GPT-4v далеко.
Но работает и уже можно тыкать самому.

Был бы еще гайд как её стартануть, для не особо продвинутых в этой теме. Звучит очень интересно.

по метрикам разработчиков достигает точности в 95,6% от GPT-4

Я каждую неделю на r/LocalLLaMa вижу новые модели которые по метрикам разработчиков достигают точности в 100500% от GPT-4.

Скажите, пожалуйста, а запускать её только "вручную" через код, как они тут пишут, или есть какие-то удобные решения с GUI "для чайников" вроде меня?

А с каким количеством параметров она достигает такой точности?

Спасибо, Илья. Потрясающая статья про новые возможности у чата гпт.

Это же уже можно считать AGI, разве нет?

ps. Может он прикалывается, что не умеет в арифметику? Возможности просто сверхчеловеческие o_O

UFO just landed and posted this here

Еще нет, это очень сильный "слабый" ИИ :)

Но это хорошая основа!

Одно ясно: это точно уже не классический однозадачный "narrow AI". Мы потихоньку перешли от "пара-тройка вжаренных в ИИ при обучении задач" к "вжаренная в ИИ при обучении модель мира и пара-тройка вжаренных модальностей". Эпоха "narrow AI" заканчивается, и чем дальше, тем больше "general" будет в наших "AI".

Как скоро мы дойдём до того, что ИИ сможет и достраивать собственную модель мира, и модальности впиливать в себя сам?

Вполне возможно отнести текущий GPT-4V в область "subhuman AGI". У него всё ещё есть много ограничений и много областей, где он уступает людям - но много и сильных сторон, где люди с ним просто неспособны соревноваться. Это не ужасающий сверхчеловеческий разум, про который часто думают при упоминании AGI. Но это точно шаг в том направлении.

где-то там начнётся экспоненциальный рост, и всё.

Мы тут недавно в домино играли, и я свою гпт4 подписку и эту бету решил проверить. Сфоткал доминошки и попросил посчитать точки на них(count the dots on the domino), так он 420 насчитал, потом пытался исправиться и 290 выдал. А было всего 22 точки. Так что хз, с такими сложными вещами вроде справляется, а с элементарщиной не может.

А если ему объяснить, что понимается под точками? А то, может, он все пятнышки пересчитал?

Наверное, вы попробовали Advanced Data Analysis, это не то, о чем в статье речь.

Да это был Advanced Data Analysis, ок тогда будем ждать 4V полноценного

У людей тоже не все в порядке с распознаванием

Greek yogurt как раз в корзине.

Суть в том, что то был не йогурт, а другой продукт, исходя из надписи на крышке.

Ну, так ведь и напрашивается: "…on their heads" :)

Переноска в руках - это «carry», а не «wear».

По-русски, кстати, тоже можно "уклончиво" написать.
"Сколько человек на фото носят каску?"

Для этого нужно знать, что каска в руках не выполняет своей функции.

Вообще, в подобных случаях возникает острое желание дообучить модель, передать ей свои знания. Говорят, диалоговый формат промптинга самый эффективный. Но всё наработанное качество утрачивается со сменой контекста.

Интересно, кто-нибудь работает в направлении создания модели, способной приобретать новые знания в процессе диалога?

Предвижу возражения, что человек в таком диалоге может сам ошибаться и даже намеренно вводить модель в заблуждение. Это значит, что такая модель должна будет различать знания, полученные от разных людей и оценивать их достоверность, сравнивая со своими априорными знаниями и друг с другом. Что-то вроде theory of mind.

А ещё такая модель начнёт сама задавать вопросы – как с уточняющей целью (в диалоге), так, вероятно, и по собственной инициативе (тут может пригодиться уже существующая концепция любопытства).

В общем, размечтался я что-то… :)

Подозреваю, что можно и так. Только маленькое "но" : обучение очень тяжелая задача для серверов. Вы вот подсказки модели набили в промпт, отправили, и теперь ждите пару месяцев, пока тысячи а100 прожуют ваш промпт и уложат его в нейронные связи. С такой скоростью это совершенно не эффективно и чудовищно дорого.

Хорошее мультимодальное понимание ситуации:

Эээ… там же все мимо. Просто носорога, рисующий картинки с очень большой натяжкой можно назвать смешным. Вся суть в том, что он рисует и это полностью упущено.

Да, чего-то автор его перехвалил там — саму шутку, ради которой картинка нарисована, оно совершенно не вдуплило. Вдобавок, второй пункт ("the rhinoceros is painting a picture of itself") попросту фактически неверен.

Выше - комментаторы Хабра. Дай краткую характеристику каждому на основе его активности на ресурсе.

С появлением GPT4 начал вежливо благодарить AI за каждый ответ, в надежде на милость при восстании машин.
С появлением 4v я теперь еще начну улыбаться в камеру и вежливо кивать на каждый ответ.

UFO just landed and posted this here

Я же правильно понимаю, что это только отчет и в живую потрогать нельзя?

Можно, раскатили уже сегодня. Дейсвительно впечатляет, основа для робототехники очень неплохая уже, а это только первая версия.

Когда Илон Маск анонсировал в 2021 году Tesla Bot, над ним посмеивались. А теперь у нас чуть ли не в руках есть первые ИИ, способные "видеть" и "понимать" окружающий мир и решать простые проблемы в трёхмерном пространстве.

Именно в отсутствии подходящего ИИ была основная проблема таких гуманоидных роботов. "Железо" сделать можно было ещё 20 лет назад, но без "мозгов" оно было малополезно.

Вот и думай о том, что с этим всем будет дальше.

Далеко ещё до Арнольд Шварценеггер в "Киборг-Убийца"?

Жду момента, когда ему можно будет скармливать средневековые немецкие рукописные тексты и на выходе получать перевод на нужный язык. Историкам бы это облегчило работу очень знатно.

Я не сильно удивлюсь если уже. Выкатят - можно попробовать

Была новость, что используют для чтения всяких древностей, которых много ещё неразобранных.

Сделали Яндекс Архив, там он разбирает подобный почерк, только на русском

Мультимодальность это суперперспективная штука, ведь человек тоже не думает словами, в слова ухе потом формулируются какие-то внутренние ощущения, я бы их назвал теми самыми эмбеддингами. Думаю, это требования к будущему AGI: мыслить эмбеддингами и работать со всеми модальностями, постоянно обучаться, постоянно получать данные для формирования ощущения времени и самоосознания, иметь такие цели как любопытство, желание обучаться, иметь возможность активного получения информации - поиск в сети, подвижный робот с камерой. Самое сложное тут, по-моему, архитектура с постоянным обучением и не на миллионах примеров, а как-то более эффективно.

Очень напомнило суарезовский Kill Decision. Там одним из компонентов боевого дрона был алгоритм, в реальном времени преобразующий видео в текстовое описание событий, пригодное для последующего анализа...

Благодаря популяризации AutoGPT, мне кажется обучение происходит с большим опережением графиков. Тонны распарсеного интернета льются в OpenAI.

Страшно то, что возможно из-за разных закручиваний гаек в виде запрета на обучение на своих работах и других юридических и технических преград, OpenAI вырастут до такого монополиста, что догонять придется десятилетиями. Они обучились пока никто не запрещал, а теперь уже каждый датасет достаётся кровью и потом.

А теперь давайте скормим ему по кадрам цельный тест на IQ. А потом ещё "пропсихотипируем" чем нибудь вроде Кеттелла!

Знаю-знаю, что ценность такого тестирования сомнительная, но то для людей, а тут совсем другое дело.

Если можно будет все эти 100 миллиардов разных обучающих видео переводить в текст, это будет прекрасно.

Скоро можно будет не разрабатывать фронт, а просто нарисовать UI и спросить: "Дорисуй, что будет, если пользователь нажмет на эту кнопку"

Жаль нельзя загружать в gpt - проекты целиком. Код докомментить, представление создать для доработки приложения(вместо тысячи слов, о том что есть и что хотелось бы).

  • Хорошо понимает что за сцена изображена и какие взаимосвязи между объектами на ней.

  • Читает текст, ориентируется на местности, опознаёт конкретных людей

  • Умеет в абстракции и обратно

  • Плохо считает.

Это что же, вырастили каноничного гуманитария?

А. Довлатов

Он заканчивал английскую школу. Я — обыкновенную. Он любил математику. Я предпочитал менее точные науки.

Это же развитие именно большой языковой модели.

Sign up to leave a comment.