Обновить
8K+
7

Пользователь

2,5
Рейтинг
4
Подписчики
Отправить сообщение

Мультимодальные модели – грубый и дорогой инструмент

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели10K

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему.

Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning.

Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде.

Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев).

И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу.

Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

Читать далее

AI это не совсем IT

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.6K

Находясь в поиске вакансий я понял: что-то изменилось, кто то не просто построил новый механизм, а установил новый мод на сервер.

Наступила новая “эра” и пока не все это осознали. Многие до сих пор смотрят на AI как на обычный IT-продукт. Примерно как на площадку для видеохостинга, редактор или очередной удобный сервис. Но это уже слишком мелкий взгляд.

Для начала зафиксируем простую вещь: нейросеть как продукт - это инструмент. Для её создания нужны математики, программисты, лингвисты, биологи и исследователи из других областей. Да, конкретная нейросеть это IT-продукт. Но AI в целом уже больше, чем просто один класс продуктов. Если смотреть шире, это отдельная сфера, сопоставимая с IT по масштабу влияния, но не заменяющая его.

Читать далее

Проблемы людей и нейросетей

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели11K

Сейчас тренд на замену людей нейросетями, вайбкодинг, и другие вещи которые завернуты в фантик «Беззаботного будущего», всё это мне напоминает предыдущий тренд который был до появления ИИ — «Успешный успех». Нам продают не технологии, а чувства простоты, на который люди каждый раз охотно ведутся.

По ощущениям, этот тот же барабан с цифрами 777, нам показывают пару удачных прокруток, «джекпоты», счастливые лица, а реальная статистика, цена попыток, и неизбежные промахи остаются за кадром.

Читать далее

Информация

В рейтинге
1 485-й
Зарегистрирован
Активность