OpenAI Developers
OpenAI Developers

Вчера ночью OpenAI выложил ещё несколько видео с OpenAI DevDAy и там довольно много интересного, как устроено то, что они анонсировали и более подробно, как они работают над новыми фичами. Видео действительно полезные для всех, кто собирается использовать их API. Сделал полный обзор.

Для погружения в основной список анонсов советую прочитать вчерашний обзор, здесь же будут более глубокие детали и частности. Но тоже безумно интересно.

Research x Product

Баррет от инженеров и Джоанна от продукта обсуждают, как они сотрудничают, чтобы вместе делать крутые вещи, особо уделяя внимание развитию диалогового интерфейса для улучшения опыта пользователя и как это помогает улучшать модели. Основное:

  1. В OpenAI исследовательские и продуктовые команды работают бок-о-бок, помогая другу другу.

  2. Команды долго решали, как делать диалоговый интерфейс, в итоге сделали его универсальным, что определило его популярность.

  3. Сосредоточились на адаптации предварительно обученных языковых моделей для конкретных продуктов, таких как ChatGPT и API, а не просто для научных целей.

  4. До OpenAI работали над специализироваными моделями для конкре��ных задач, но большие, более универсальные модели, способные одновременно выполнять разнообразные задачи, оказались гораздо полезнее.

  5. Много работают над упрощением пользовательского интерфейса.

  6. Цель – практическое применение и максимальная универсальность.

  7. Вкладываются в получение обратной связь от пользователей (палец вверх-вниз, какой ответ нравится больше, комьюнити), это даже влияет на приоритет исследований и разработок.

  8. Разработка продукта отличается от традиционной компании, потому что цель – создание общечеловеческого искусственного интеллекта и что фокус всё-таки на технологию, а не на проблемы пользователей (да-да).

    Уникальные аспекты работы инженеров и продактов в OpenAI
    Уникальные аспекты работы инженеров и продактов в OpenAI
  9. Делают дальнейшую ставку на персонализацию моделей, мультимодальность (текст, звук, изображение) и решение сложных задач.

New Products: A Deep Dive

Продакт-менеджер и инженер показывают 3 демки (GPT cо знанием ML, говорящий как пират; взаимодействие с Asana через Retool API буквально копипастой формата запроса; извлечение данных из приаттаченной PDF), а потом интеграцию всего вместе, чтобы угадывать по фото настроение, через API Spotify подбирать микс и создавать для этого плейлиста обложку. И всё это на мобиле, с голосовым вводом.

А потом стали описывать типичные проблемы разработчиков (боже, как это знакомо), и для борьбы с ними сделали Assistance API

Проблемы создания приложений c AI самостоятельно
Проблемы создания приложений c AI самостоятельно

API позволяет создавать ИИ-ассистентов внутри приложений, используя возможности ChatGPT и инструменты, такие как интерпретатор кода и поиск информации. К основным функциям относятся ассистенты (ИИ с инструкциями и доступом к другим инструментам), треды (сессии или отдельные беседы) и сообщения (взаимодействия между пользователями и ассистентами). Всё это доступно уже сейчас, можно попробовать в песочнице. Механизмы очень похожие на создание GPTs без кода. Соответственно можно использовать и интерпретатор код, и извлечений знаний из загруженных файлов (в том числе обновлять их). Ну и режим вывода правильного JSON и параллельного выполнения функций тоже присутствует. А в будущем планируют включить поддержку мультимодальности, вызова вашего кода и асинхронной работы с сокетами (вау).

The New Stack and Ops for AI

Очень полезная сессия про переход от прототипа к продакшен-использованию.

  1. UX. Интерфейс должен ставить во главу угла человека, а не AI, предлагая человеку варианты решений и инструменты уточнений, переделки, а также собирая обратную связь, которая пригоди��ся для улучшений модели. Инструмент должен быть дружественным и надежным. И не забываем предлагать варианты, что можно спросить и ставить дисклеймер, что информацию надо проверять.

  2. Безопасность. Обязательно промптом направлять модель в нужную сторону, запрещать отвечать вне рамок, валидировать результаты, предоставлять примеры, возможно дообучать, особенно в зарегулированных областях. Ну и используйте Moderation API (это уже от меня), чтобы в продукт не попала непотребщина всякая.

  3. Надежная работа. Предлагают использовать режим JSON всегда, когда это нужно. А также с помощью seed валидировать результаты. Об этом писал тут

  4. Согласованная работа. Если сталкиваетесь с галлюцинациями, лучше использовать внешние хранилища знаний (через RAG) и API, а потом уже скармливать точную информацию в промпт, чем доверять модели.

  5. Оценка качества: Тут про важность создания валидированных датасетов, адаптированных к конкретным случаям использования, как оценененных человеком, так и более мощными моделями (GPT-4) для измерения качества и предотвращения падения качества. Результаты при релизах надо сохранять, и результаты после обновления моделей и промптов потом сравнивать с эталонными.

    Вот, например, как сами используют
    Вот, например, как сами используют
  6. Масштабирование - стоимость и задержки при работе: Предлагают семантическое кэширование для уменьшения вызовов к API и работу с менее крупными моделями, в том числе дообучение GPT-3.5 с помощью GPT-4 для ваших задач.

A Survey of Techniques for Maximizing LLM Performance

Опять же супер-полезная лекция, как улучшать работу LLM-ок. Покажите свои продакт-менеджерам, кто думает, что можно просто початиться с ChatGPT и фича готова.

  • Начинают с Prompt engineering: точные инструкции, разбиение задач на подзадачи, дать время и шаги на "подумать" и тщательно тестировать каждый шаг. Хорошо для быстрого прототипирования и создания бейзлайнов, но плохо для неизвестной для модели информации, гарантированного вывода, минимизации трат на токены.

    Пример хорошего промпта
    Пример хорошего промпта
  • RAG (Retrieval Augmented Generation - ищем подходящую информацию во внешней базе, запихиваем в промпт, просим по ней ответить). Хорошо для уменьшения галлюцинаций и добавление в модель новой информации, но плохо для работы с очень большим доменом информации, обучение определенному стилю и минимизации трат на токены. Просит очень внимательно относится к поиску, поэтому это еще одна система, которая может загубить всю вашу работу.

    Та самая картиночка, как команда разными манипуляцими с RAG допилась отличного результата
    Та самая картиночка, как команда разными манипуляцими с RAG допилась отличного результата
  • Fine-tuning. Хороший вариант для оптимизации под конкретную задачу, уменьшения потребления токенов и возможности использования более маленькую модель. Хорош для усиления знаний, которые уже есть в модели, структурирования ответов определенным образом, обучения сложным инструкциям. Плох для добавления новых знаний и быстрого прототипирования. Датасет можете из своих данных добыть, можете купить, попросить разметчиков или выжать из большой модели. Лучше использовать 100-200 качественных вопросов, чем скормить модели "все ваши данные".

  • Fine-tuning + RAG: Best of the best. И подходит для сложных инструкций, и деньги экономит, и позволяет новые знания добавлять. Но конечно процесс это будет небыстрый и непростой.

Кратенько, как это бывает у инженеров
Кратенько, как это бывает у инженеров

The Business of AI

Панельная дискуссия с 3 клиентами: Salesforce, Typeform и Shopify.

  • Самое сложное: двинуться дальше прототипа, согласовывая продуктовые изменения с организационными целями, рабочими процессами клиентов, а также этики и безопасности.

  • Стратегические запуски ИИ: Formless как отдельный продукт чатового заполнения форм для экспериментов или интеграция ИИ в Shopify в бете для сбора обратной связи

  • Доверие пользователей: Для B2B супер-важно, а потому лучше меньше, но точнее, безопаснее и с контролем администраторов. Для B2C - с контролем пользователей и уточнения результатов

  • Ценообразование: нужно найти баланс между затратами и ценностью. Много дискуссий о выборе между GPT-3.5 и 4. У каждой компании свой подход был.

  • Инновации: персонализированные ИИ для различных отраслей, выход ботов за пределы чатов, советуя проактивно улучшения рабочих процессов, а также предоставляя отличный пользовательский интерфейс для взаимодействия.

  • Метрики: обратная связь для B2B, время до получения ценности для B2C, стабильный ретеншн для маркетплейсов.

  • Будущее: все более глубокая интеграция во все аспекты разработки продуктов

Надеюсь, было полезно. Заходите на огонёк в телеграм-канал, там ещё больше полезного.