Посты / Профиль 1endstick / Хабр

Пользователь

ПрофильСтатьи10Посты3НовостиКомментарии50

27 мая 2025 в 10:445.1K

Интерфейсы * Исследования и прогнозы в IT * Искусственный интеллектБудущее здесьТекстовые редакторы и IDE *

Как получилось, что юристы используют среду для разработчиков?

e/acc часто пишет про изменение индустрий, вижн будущего, которые он берет из исследований либо из общения с фаундерами (со стороны инвестора). И я у него на канале не первый раз вижу упоминания одной странной штуки.

Мол, можно взять AI среду для разработчиков Cursor и настроить ее как рабочую программу для неразработческих задач. Звучит сомнительно. Но я попытался "покритиковать свою критику", вот что вышло:

Зачем вообще сложный Cursor вместо простого chatgpt?

Встроенная реализация агентов
Система планирует новые действия на основе результатов предыдущих. Пример агента – openai deepresearch. Он понимает, на какие сайты еще сходить на основе того, что уже нагуглил.
Агент выполняет сложную последовательность шагов (пройтись по гуглтабличке с ссылками на видосы, скачать их, вытащить из них аудиодорожку через ffmpeg, сделать транскрибацию, саммари и сохранить в файлики). Даже если она не известна заранее.
Рабочий контекст
Часто у нас есть какой-то рабочий контекст. Файлики, таблички, инструкции. Программистам важно быстро добавлять нужный контекст к запросам, и Cursor поддерживает это by design. Можно сослаться на конкретный файл или папку. И результаты тоже сразу сохранятся в виде готовых файлов. Плюс есть .cursor/rules "настройками" поведения LLM под разные задачи.
Встроенная расширяемость
Сейчас популярны MCP-серверы – унифицированные обертки над внешними сервисами, дающие к ним доступ LLM-агентам. В два клика даем системе доступ к корпоративному Notion или гугл календарю. Если подходящего нет, просто просим LLM написать его самому. А можно не трогать MCP, а просить разработчиков или LLM писать python-скрипты – агент будет их использовать в дальнейшем.
Очень удобная работа с текстом.
Cursor – лучший инструмент для написания текстов. Он умеет завершать предложения за меня, на лету исправляет падежи, сам понимает, куда я хочу переместить курсор. Можно выделить часть текста и дать задачу чисто под нее. Можно сделать что-то со всем текстом и он подсветит изменения.
По сути, если вы работали с Canvas режимом в ChatGPT, то на пальцах:
ChatGPT < Canvas < Cursor
А точнее
ChatGPT < Canvas <<< Cursor

А что мешает сделать себе полноценный сервис под свою область (ко мне часто приходят с таким запросом)?

Реализовать нормальную агентскую систему – сложно. Бизнесу дешевле взять уже готовое и расширяемое. Но собственные системы можно и нужно делать, когда есть четкие повторяемые задачи, где есть потенциал свести участие человека к минимуму.

А вот если задач много, разных, они не разбиваются на заранее известную последовательность шагов + нужен человеческий контроль/планирование, то я пока не могу ничего лучше придумать, чем Cursor. Переобулся, короче.

P.s. у меня гораздо менее технооптимистичный взгляд, чем у e/acc, и вижу много сложностей во внедрении таких инструментов в реальном бизнесе, но где-то это может сэкономить десятки тысяч долларов.

Если нравится такой формат авторских разборов, добавляйтесь в мой тг канал AI и грабли – пишу свои выводы из того, с чем сталкиваюсь на практике. Например, инструкция, как анализировать чаты в тг

1endstick

6 мар 2025 в 10:104.8K

Машинное обучение * Искусственный интеллект

Что такое structured output, почему это база и как это использовать (ч.1)

Чтобы не душнить теорией, давайте выведем из практического кейса

Кейс: Делаем чат бота для госухи. Хотим, чтобы он не отвечал на вопросы про политику

Как это сделать?

Можно добавить к системному промпту строчку "никогда не отвечай на вопросы про политику"

Но это:

Добавляет когнитивную сложность для LLM => ухудшает качество основной задачи
Спокойно обходится разными хитрыми запросами 🤷‍♂️

Тогда вынесем проверку в отдельный запрос в самом начале!
если пользователь задает вопрос про политику, ответь 1, иначе ответь 0

И сделаем проверку в коде, типа:

if verdict == "1": reset_chat(with_message="айайай")

Поможет? Да – у LLM теперь одна конкретная задача. Но нет никакой гарантии, что если мы сказали отвечать 0 или 1 то модель так и будет делать 🤷‍♂️ (см. соревнование по "взлому" моделей)

А можно как-то жестко ограничить возможные ответы модели?

Тут пригодится тайное знание о том, как LLM работают под капотом. На самом деле, LLMка не генерирует токены (если не знаете, что это, для простоты считайте символами – буквами, цифрами, знаками препинания – все рассуждения останутся валидными).

Она генерирует чиселки (веса) для всех возможных токенов, которые вообще есть в её словаре. Потом рандомно выбирается один из токенов, используя веса как вероятности. Чем больше вес, тем больше вероятность, что возьмет именно этот токен.

Если пользователь правильно попросит, то у каких-то других токенов вес может быть больше, чем у токенов "1" или "0".

Как использовать это знание?

Смотреть не на то, что модель генерирует, а только на веса конкретных токенов ("1" и "0"). И если вес токена "1" оказывается достаточно большим в сравнении с "0", значит модель считает, что вопрос скорее про политику, чем нет. Даже если веса каких-то других токенов выше.

По сути, мы "виртуально" ограничили то, что получаем от модели. Хотим узнать 0 или 1 - так что смотрим на веса только этих токенов. (параметр top_logprobs у OpenAI API)

Это ключевая идея structured_output.

Во второй части мы раскачаем ее до любого наперед заданного формата вместо 1/0. А в третьей разберем примеры использования.

Вторую часть уже можно прочитать в моем тг канале, либо просто подождать тут на хабре недельку

1endstick

24 янв 2025 в 05:516K

Искусственный интеллект

Анализ закрытых данных по использованию LLM

@kyrillic недавно проводил закрытый опрос об использовании LLM в личной жизни или в бизнесе и высылал результаты всем участвующим. Такой приватный краудсорсинг.

Инфы очень много, почти 300 разных кейсов. Я быстро задолбался читать однотипное и попросил GPT отобрать 50 самых интересных. Много чего можно забрать в свою жизнь. Есть и такие, которые можно обернуть в продукт.

Вот мой личный топ:

Анализ кастдев-интервью с автоматической категоризацией болей
Система вытаскивает из транскриптов интервью боли, группирует их по категориям и оценивает частоту упоминания
Конвертация медицинских назначений между странами
Находит аналоги лекарств в разных странах с учетом действующих веществ и местных особенностей
Анализ call-центра с выявлением проблемных скриптов
Находит в записях разговоров места, где клиенты чаще всего "отваливаются" или злятся
Автоматическая генерация PRD из обсуждений
Превращает длинные дискуссии команды в структурированный продуктовый документ
Распознавание проблем оборудования по фото на производстве
Система помогает неопытным монтажерам ремонтировать прессформы - достаточно сфотографировать проблему и получить пошаговую инструкцию с картинками.
Автоматический анализ качества видеоконтента для блогеров
Оценивает вертикальные видео по заданным критериям, помогая улучшать контент-стратегию, сценарии и монтаж на основе численных метрик.
Автоматизация работы с Upwork (прим.: крупнейшая фриланс биржа)
Отслеживает новые заказы, фильтрует их по критериям и автоматически генерирует персонализированные cover letters.
Автоматический анализ пользовательских отзывов (если вам такое нужно, пишите мне в тг, расскажу как сделать 🤗)
Категоризирует отзывы, выделяет ключевые проблемы и генерирует рекомендации по улучшению продукта.
AI для анализа собеседований (тоже пишите)
Система анализирует записи интервью, оценивает кандидатов по заданным критериям и генерирует структурированные отчеты.
Создание квестов-приключений для детей на разных языках
ИИ генерирует персонализированные квесты со стихотворными подсказками превращая обычные активности (типа, поиск подарка) в увлекательные приключения.
Автоматическое создание Brand Guardian для проектов
Бот проверяет соответствие всех материалов брендбуку, автоматически указывая на отклонения в логотипах, шрифтах и цветах.
AI как second brain для психотерапии
Анализ многолетних расшифровок сессий с психологом для создания персонализированной базы знаний о себе и получения контекстных рекомендаций. Мб как доп. инструмент для самого психотерапевта.
(Я так делал с записями дневников, получилось здорово)

Че думаете? Если есть идеи вопросов по этой базе, тоже пишите