Андрей Карпати: главная проблема LLM — в том, как они отвечают / Хабр

Сооснователь OpenAI и бывший директор AI в Tesla Андрей Карпати опубликовал в X пост, в котором назвал главное узкое место в общении с большими языковыми моделями — формат их ответа. По его мнению, голый текст тяжело читать, markdown как текущий дефолт уже исчерпал себя, а следующая ступень эволюции вывода LLM — это HTML. Карпати выстроил траекторию минимум из четырех шагов и считает, что отрасль сейчас застряла на втором.

Логика простая. Около трети мозга — это массивно-параллельный процессор зрения, "десятиполосная супермагистраль входящей информации", как пишет Карпати. Поэтому голос — естественный канал общения от человека к ИИ, а вот канал от ИИ к человеку должен быть максимально визуальным: иллюстрации, схемы, анимации, видео. Hot tip от Карпати: добавьте в конец промпта фразу "structure your response as HTML" ("ответь в виде HTML-сайта") и откройте сгенерированный файл в браузере. Эффект, по его словам, заметен сразу.

Поводом для поста стал манифест Тарика — инженера команды Claude Code в Anthropic. Тарик опубликовал статью "The Unreasonable Effectiveness of HTML", в которой честно признался: он сам почти перестал пользоваться markdown и переключился на HTML как основной формат вывода своих агентов. Манифест разошелся по комьюнити настолько, что Карпати оперативно встроил его тезис в собственную модель того, как мы будем общаться с LLM в ближайшие годы.

Главный тезис Тарика такой: markdown-файл длиннее 100 строк никто не читает. Ни сам автор, ни тем более коллеги, которым он его пересылает. HTML тянет таблицы, CSS, SVG, скрипты, интерактив — и легко превращается в кликабельный артефакт, который можно отправить ссылкой. Минусы Тарик тоже признает: HTML генерируется в 2-4 раза дольше markdown, диффы в git выходят шумные, а без дизайн-системы файлы получаются уродливыми. Но он считает, что качество результата того стоит.

Картина практическая. Тарик использует HTML для технических спецификаций с мокапами и фрагментами кода, для аннотированных ревью пул-реквестов с цветовой маркировкой по тяжести замечаний, для отчетов руководству и одноразовых редакторов под конкретную задачу — например, драг-н-дроп карточек с тридцатью тикетами Linear и кнопкой "скопировать как markdown" в конце. Принцип у всех таких артефактов один: интерактив, кнопка экспорта обратно в промпт, никаких претензий на переиспользование.

Сам Карпати при этом считает, что HTML — лишь промежуточная ступень. Дальше, по его прогнозу, нас ждут интерактивные нейровидео и симуляции, генерируемые диффузионными моделями прямо в ответ на запрос. Когда такая технология появится — открытый вопрос, но прямо сейчас HTML, по версии Карпати, формирует новый дефолт для вывода LLM. Цена эксперимента для читателя нулевая — одна строка в конце промпта.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.