Обновить

Мультимодальные модели – грубый и дорогой инструмент

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K
Всего голосов 2: ↑2 и ↓0+2
Комментарии9

Комментарии 9

Вообще да, пока что модельки “понимают” интерфейс примерно как я чужой код в 3 ночи - чёт смотрю, но лучше не спрашивать, что именно вижу)

Сколько не пытался перестроить режим, всё равно к ночи, даже если голова уже "хуже думает" - работа наоборот прет.

Про интерфейс. Модельки щас натаскали на шаблонные решения, которые палятся даже лучше, чем нейрослоп. Я смотрел представление Сэма о выходе гпт5, боже как они там хвалили что она делает сервис с нуля, и показывали эти интерфейсы. Но через три тестовые генерации, я понял что не всё так гладко. особенно когда оно пытается запихнуть весь контент и ручки (если сервис) в одну страницу.

Я думаю, если появиться новый канал зрения, то этот вопрос получится решить в том числе. Но мне больше интересно на сколько это снизит стоимость автоматизации работы с сайтами, типа бронирование, поиск.

если появиться новый канал зрения

Считаю, проблема не в нехватке источников информации, каналов, вычислительных ресурсов и тп. Проблема концептуальная - отсутствие у LLM понимания. Имитацию они могут сделать, ну это как попугай, он тоже вроде "говорит", но толку от этого не сказать чтоб много...

Я полностью согласен, но предложил это опустить в начале статьи. И посмотреть на LLM как на программу которая поглощая А выдает нам Б, где Б имеет некое качество, даже можно допустить что оно приемлемое для нас (но это тоже не важно).

Дело в том что если мы посмотрим на LLM как на жалкую программу(а не на какой то интеллект), то увидим что не эффективно в модель пихать фотографии сайтов, а так же код, для оценки визуала (а еще сюр когда она каждый раз пишет код для чтения pdf). Даже если бы она давала достойный результат.
Но и этот достойный результат она не дает, а шишки AI компаний продолжают раздувать AGI говоря нам что модель должна видеть, слышать писать как мы и тогда она сможет быть умной, это будет сверх интеллект.

И вот я говорю что пока их идеи это бред, мы можем просто добавить специфичный механизм в LLM и он даст рост качества на определенных задачах. Это как вместо LLM для анализа результатов крови обучить более мелкую нейросеть. Вот тут будет эффективность.
Или для бота поддержки взять не API chatgpt а поднять локально gpt2 и дообучить его шаблонно отвечать на вопросы используя RAG.

В общем таких кейсов много где излишне усложняют используя большие языковые модели или тратя токены.

Например многие чаты не поддерживают банальную вещь - не переключенная раскладка клавиатуры, которая давно есть в поисковиках. Модель с первого раза не расшифровывает это, а тратит в среднем 2-3 генерации.

Но с точки зрения Сэма, (я думаю) - он скажет, можно а зачем?)

Кстати насчет попугаев, очень хороший пример. Есть более умные попугаи которые знают много слов и могут вставлять их правдоподобно в диалог, как LLM)
То есть со стороны люди верят что он умный (что он понимает), но его мозг просто выбрасывает звуки связанные ассоциациями а не каким то размышлением. В отличие от Ворон.

Я изучал этот вопрос, сам хотел себе забавную игрушку птичку до глобального AI хайпа.

>> Сколько не пытался перестроить режим, всё равно к ночи, даже если голова уже "хуже думает" - работа наоборот прет.

Ангалогично. В каком-то уже полусонном состоянии ловлю "поток" и за полтора часа выдаю как за остальной день. Понимаю что для здоровья лучше заснуть, но приходится ловить это состояние, раз работает. Потом на выходных досыпать.

Для этого нам не нужно каждый раз восстанавливать интерфейс ни из исходного кода, ни из набора пикселей.

Открою страшную тайну. Человеческий глаз передает тоже набор пикселей. Причем там всё ещё хуже - там набор пикселей кусочка изображения. Приходится с начала из пикселей восстанавливать кусочек, потом ещё кусочек, потом складывать это в картинку.

А еще убирать шум. переворачивать картинку. Но мы не тратим на это все ресурсы нашего мозга. Суть в этом.
Что есть боль, можно решить чуть проще и дешевле, также как появились mcp сервера, нужен один или набор каналов информации

Ресурсы тратим. Для сознания они незаметны, да.

Если честно, я не увидел в статье конкретных фактов - почему другие варианты могут быть лучше. Мне это кажется не очевидным.

Сверточная сеть, используемая моделью для зрения занимает крошечную, просто ничтожную ее часть. И она поставляет модели информацию так же естественно, как нам ее дают глаза. Зачем отнимать у модели естественное зрение, и заменять костылями? Для таких предложений нужны конкретные варианты с пруфами.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации