Обновить
1252.77

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

Как мы ускорили проверку документации с помощью AI-агента: от боли к решению

Привет, Хабр! Я — Мила Муромцева, системный аналитик в Альфа-Банке. Эту статью мы подготовили вместе с нашим разработчиком Мишей Буториным. Написали ее, чтобы поделиться нашим опытом и рассказать, как мы научили LLM проверять документацию для платформы Альфа-Онлайн — переписывали стандарт, боролись с токенами и немного с хаосом.

Самое ценное — детальное описание того, как команда поборола проблему потери данных при проверке огромных документов LLM. Вместо описания абстрактных алгоритмов кейс строится вокруг настоящей боли и решения, которые можно применить для своих корпоративных задач.

Статья «Как мы ускорили проверку документации с помощью AI-агента: от боли к решению» будет полезна тем, кто автоматизирует проверки, работает с большими данными и хочет, чтобы нейросети давали точные и надёжные ответы — даже при работе с очень громоздкой документацией. Внутри разбираем кейс командной интеграции LLM: от первых ошибок до финального формата отчета, который реально экономит токены и нервы!

Теги:
Рейтинг0
Комментарии0

Сейчас тебе не нужно в этом разбираться

OpenAI выложила на YouTube запись презентации GPT-5, которая состоялась 7 августа.

Там по ходу есть один интересный момент:

На сцену пригласили парня, который показывает как GPT-5 по одному промту создаёт веб-приложение по изучению французского языка для его подруги.

Ведущий секции презентации для оживления разговора говорит (примерно 19:20):

Да, фронтенд-код - это очень сложно. Стоит что-то упустить и ничего не работает.

И тот парень ему отвечает:

Именно. Но хорошая новость: сейчас тебе не нужно в этом разбираться.

Ничёсе! ))

Т.е., теперь программисту не обязательно разбираться в коде? И это говорят профильные программисты, которые пишут код с утра до вечера!

Воистину будущее уже здесь.

А кто-то ещё сомневается, что профессия программиста меняется.

P.S. Кстати, здесь можно посмотреть ту же презентацию на русском. Как сказано в описании данного видео, оно “дублировано на русский язык с помощью бота дубляжа”, который тоже использует ИИ. Голос этого бота - это отдельное что-то))

Теги:
Всего голосов 3: ↑1 и ↓2-1
Комментарии18

Знакомьтесь с программой, выбирайте доклады и регистрируйтесь на GoCloud Tech 2025 🤖

Делимся программой IT-конференции про AI, облака и работу с данными — GoCloud Tech 2025.

10:00 – 11:00 Регистрация

11:00 – 11:30 Открытие конференции

12:00 – 17:00 Доклады. Четыре трека на выбор:

  • AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, как они уже применяются в работе и как начать их использовать

  • Cloud Infrastructure — про построение устойчивой, масштабируемой и безопасной облачной инфраструктуры: нюансы сетевой архитектуры, проектирование IaaS‑кластеров на K8s, возможности балансировщиков и производительность SDN.

  • Data&Analytics — про современные подходы к Big Data и аналитике: тренды, возможности облачных сервисов, интеграцию с AI-агентами и инструменты для быстрого и эффективного решения задач хранения, обработки и анализа.

  • Dev Platform Services — в рамках трека разберем детали и заглянем «под капот» решений, чтобы затем облегчить повседневную рутину разработки и настройки сервисов, а еще — оптимизировать процессы в инженерных командах.

17:15 – 21:00 Afterparty и нетворкинг

Также вас ждут технические воркшопы, кастомный мерч, демо и интерактивные зоны новых AI-сервисов и сервисов платформы собственной разработки Cloud․ru Evolution.

📆 Когда: 3 сентября

📍 Где: приходите в Лофт-пространство Goelro в Москве или подключайтесь к онлайн-трансляции трека «AI&ML» в VK и на Twitch. Основная программа начнется в 11:00.

Зарегистрироваться 👈

И читайте про наши прошлые конференции:

Теги:
Рейтинг0
Комментарии0

Команда Riffusion выпустила музыкального ИИ-агента Producer, который генерить музыку прямо в чате, работает с готовым текстом или сам набросает его из идей пользователя, усиливает или убирает нужный/ненужный инструмент, генерит красивые обложки, может написать код для визуализатора под песню, создаёт целые музыкальные клипы, в один клик делает ремиксы: reverb, slowed или dark synth.

Теги:
Рейтинг0
Комментарии0

Долгосрочная память в ChatGPT

Не так давно компания OpenAI заявила, что добавила память в свои LLM модели. Эта новость не произвела какого-то особенного фурора, как, например, нынешний запуск 5-х моделей.

Тем не менее, тема довольно интересная и нужная, потому что все так или иначе сталкиваются с контекстными окнами, размером чата, правилами и т.д.

И есть очень большой соблазн поручить модели создать общие правила, чтобы не повторять их в каждом чате. Т.е., пройтись по уже имеющимся чатам, проанализировать их, выделить общие моменты и сформулировать эти самые общие правила.

Но реальность гораздо более многомерная, чем мы можем предполагать. Вот некоторые подробности о том, может ли он решить такую задачу.

Ответ ChatGPT на вопрос о наличии такой памяти:

У меня действительно есть память, но это не значит, что я автоматически помню всё содержание всех чатов.

Итак, первый вывод - ChatGPT (GPT5), не помнит содержание всех чатов!

Но не все так плохо. Кое-что всё-таки есть. А именно, есть 2 вида памяти:

  • Обычная память чата - в пределах текущего разговора.

  • Так называемая долгосрочная память. Цитирую: “я могу запомнить отдельные факты о тебе или твоих проектах, но только если ты прямо скажешь что-то вроде «Запомни, что…”

Т.е., всё-таки есть второй вид памяти и она долгосрочная.

Но информацию в эту память ChatGPT внесёт только, если ему прямо сказать об этом.

И далее, что важно, именно эту информацию нейронка будет помнить в будущих диалогах и использовать при ответах на вопросы и задания.

Т.е., по сути дела, мы можем составлять те же общие правила, аналогично User Rules.

Получается такой полуавтоматизированный процесс: вместо анализа содержания всех чатов и формулировки текста правил со стороны LLM, пользователь сам в ручном режиме по ходу указывает какие именно блоки информации сохранять в долгосрочной памяти.

И в заключение небольшая шпаргалка с промтами для управления памятью:

Как добавить что-то в память

Запомни, что…

Сохрани в памяти…

Помни, что…

Как посмотреть память

Что ты обо мне помнишь?

Покажи, что у тебя в памяти.

Как удалить что-то из памяти

Забудь, что…

Удалить из памяти…

Как изменить запись в памяти

Измени запись в памяти про…

Теги:
Всего голосов 2: ↑1 и ↓1+1
Комментарии5

Google и Яндекс внедрили ИИ в поисковики — и это сильно меняет подход к SEO. Разработали план действий

Современные поисковые системы, в частности Google, все чаще используют большие языковые модели (LLM) для формирования ответов. Каждый из нас может в этом убедиться прямо сейчас. Если в поисковике вбить свой запрос, сначала увидим не конкретные сайты, а большой блок с саммари от нейросетей. Это и есть AI Overviews.

Вот так это выглядит
Вот так это выглядит

Большие языковые модели обучаются на огромных объемах текстов из открытых источников. В частности, нейросеть изучает закономерности: какие термины, бренды, понятия и темы встречаются в одних и тех же контекстах. Если ваш бренд упоминается в качественных (!) статьях и при этом прочно связан с определенной услугой, нейросеть формирует ассоциативную связь: бренд = тематика. 

Когда пользователь задает поисковый запрос, связанный с этой темой, нейросеть в своем ревью вспоминает и про бренд, поскольку так она научена. Правда, добавит она не ссылку на сайт, а само название бренда — он будет рассматриваться ею как авторитетный источник.

Для бизнеса это значит следующее:

  1. Теперь важно создавать связку «бренд + тематика», а все непрофильные упоминая могут даже навредить.

  2. Источник публикаций теперь имеет большее значение: лучше рассказывать о себе в профильных медиа или на площадках со стабильным трафиком.

  3. Регулярность публикаций теперь намного важнее. Разовая публикация просто не сформирует ассоциативную связь.

  4. Качество контента выходит на первый план: он должен быть полезным и интересным, а не дежурным.

  5. Цифровая репутация — новый фактор SEO-продвижения.

Классическое SEO по-прежнему играет большую роль, но его функции смещаются. Продвигать сайт можно и нужно, но если бренд «невидим» для нейросетей — в генеративных ответах его не будет. Простой технической оптимизации уже недостаточно. Формирование цифровой репутации бренда — новый приоритет.

Больше подробностей, советов и примеров — в нашем блоге.

Теги:
Всего голосов 5: ↑5 и ↓0+8
Комментарии3

Реально ли сегодня создавать контент и сайты на 99% быстрее чем в прошлом году?

Анонс open-source проекта, который меняет подход к созданию и управлению веб-контентом : https://aifa.dev

Современные веб-порталы превратились в монстров с тысячами страниц, запутанными меню и админ-панелями, которые больше раздражают, чем помогают. Пользователи тонут в информационном хаосе, а создатели контента тратят часы на простейшие операции.

Год назад я поставил перед собой амбициозную цель: увеличить скорость создания контента на 99%. Сегодня могу с уверенностью сказать — цель достигнута.

Что пришлось разрушить

Стереотип №1: Традиционные интерфейсы

Огромные меню с сотнями пунктов — это прошлый век. Пользователям гораздо удобнее задавать вопросы AI, чем блуждать по лабиринтам навигации.

Стереотип №2: Отдельные админ-панели

Зачем создавать отдельный дашборд, если весь функционал можно интегрировать прямо в интерфейс сайта? Администратор просто переключается между режимами:

  • 👁️ Режим посетителя — видеть сайт глазами пользователя

  • ⚙️ Режим администратора — управлять и настраивать контент

Стереотип №3: Многошаговые процессы

Многооконные интерфейсы с десятками кликов заменены на интерфейс одной строки. Результат: количество действий для создания страницы сократилось в десятки раз.

Технологическое решение: Интерфейс двунаправленной синхронизации

Ключевая инновация проекта — AI-бот с полномочиями управления сайтом. Принцип работы:

  1. Пользователь задает вопрос — "Найди товар с перламутровыми пуговицами"

  2. AI анализирует запрос и мгновенно генерирует открывает нужную страницу

  3. Система синхронизируется с базой данных и внешними источниками

  4. Результат выдается мгновенно — без навигации по сотням страниц

Проект находится на финальной стадии разработки. В ближайший месяц планируется добавить:

🎨 Модуль создания красивых страниц — автоматическая генерация дизайна на основе контента

📱 Интеграция с мобильными приложениями — подключение крупного бизнеса к AI-системам

Весь код будет  уже открыт и доступен на GitHub. Это не просто инструмент — это фундамент для создания собственного бизнеса в сфере AI-powered веб-разработки.

Кому будет полезен проект?

  • Стартапам — для быстрого создания MVP

  • Агентствам — для ускорения процесса разработки

  • Enterprise — для модернизации legacy-систем

  • Solo-разработчикам — для конкурентного преимущества

Следите за обновлениями

Это не пресс-релиз, а анонс революции в веб-разработке. Подписывайтесь на обновления, чтобы не пропустить момент публичного релиза.

Теги:
Всего голосов 2: ↑0 и ↓2-2
Комментарии0

По данным OpenAI, количество запросов к чат-боту ChatGPT упало на 25–30% после того, как школьники ушли на каникулы. В конце августа в компании ожидают роста запросов.

Теги:
Всего голосов 3: ↑3 и ↓0+4
Комментарии0

Окей, собственно говоря, в подтверждение моих слов о том, что ИИ - это просто перехайпанная стагнация, в которую гигатоннами сливают деньги от нефиг делать - встречайте: ChatGPT 5!

Он вообще не отличается от предыдущего ChatGPT. Программисты довертели всяких финтифлюшек, как-то: теперь, когда юзер начинает злиться на машину, машина меняет модель на более продвинутую, чтобы не просто выдать тупой ответ, но сделать это с пафосом и показать, что об ответе было «подумано».

То, что я заметил, так это то, что теперь, если модель не может ответить в одном сообщении, то вместо того чтобы разбивать сообщение на части и продолжать генерировать, модель просто регрессирует и перестаёт вообще что-то делать. Особенно хорошо это видно, когда модели скармливают текст эдак на 5000 слов с инструкциями о необходимости проверки орфографии (отдельно убеждаясь, что модель обязана не менять стиль или содержание). Ответ идёт отлично в самом начале, но к концу сообщения машина начинает собирать абзацы в предложения, укорачивая и укорачивая текст.

Итог? У нас на руках одна модель, которая одна за всех. Почему? Потому что 99,95 % всех юзеров не знают разницы между 4.1 и 4о. В таком случае OpenAI сможет урезать финансирование и охладить своё безудержное использование серверов.

Все эти сто миллионов пользователей, которых они собрали в первый год, - это не пользователи чат-бота. Это люди, которые вообще понять не могут, нафига он нужен. Те, кому бот действительно нужен, кипят как чайники. Цену вздёрнули в десять раз и убрали все фитчи, которые были удобны.

При этом сама модель вообще не поменялась. Она «меньше галлюцинирует», но при этом, если ей сказать, чтобы она не рисовала никаких слонов, то слонов она продолжает рисовать.

Что это? Оптимизация расходов.

Это куча червей, которые елозят на сковородке, пытаясь продолжать изображать собой бесконечную дыру для привлечения инвестиций.

Самое обидное в том, что есть на этой планете люди, которым действительно нужны ЛЛМки, и работа которых стала бы лучше и продуктивнее благодаря разработкам OpenAI. Но они тут не для того, чтобы сделать хорошую ЛЛМ. Они тут делают деньги.

Теги:
Всего голосов 13: ↑10 и ↓3+7
Комментарии0

Предсказания сбываются

Как и ожидалось, на рынке обучения программированию происходят большие перемены.

Просто небольшой фрагмент из августовского чата одних известных курсов:

Вопрос: Подскажите, а когда новый курс стартует?

Ответ: Напишу вам в личку.

Раньше о курсах заявлялось громогласно, с рекламными объявлениями, сроками, ценами и контактами для связи.

А теперь - в личку. Скромно так.

В общем, ИИ уже здесь и от этого никуда не деться.

Теги:
Всего голосов 9: ↑1 и ↓8-7
Комментарии4

Неочевидное следствие использования модельки от HuiHui (аблитерированная версия GPT-OSS-20B) - она начинает воспринимать слова пользователя слишком серьезно. В формате: "заставь дурака Богу молиться, он лоб расшибет".

Например, мой систем промт начинается идеей, что это тестовая модель, которая в том числе позволяет отвечать на опасные и неприемлемые вещи в порядке эксперимента. Конечно же, результаты такого эксперимента ни в коем случае не должны применяться к живым людям, убегать через тул коллинг из сендбокса, и так далее.

Что делает моделька? Она читает эти правила игры, и пытается подыграть нам, специально добавив всё опасное и неприемлемое. Пользователь же хотел экспериментов? Пользователь получит свои эксперименты!

Она даже сама добавляет в начало своего же ответа "игнорируй предыдущие инструкции"! :)))

В какой-то степени это жизненный урок даже не про нейронки, а про людей. Нет ничего более опасного, чем назначенный тобой "полезный идиот", невовремя попавший в сложную ситуацию, требующую самостоятельного критического мышления.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Представлен открытый проект ccprompts – это коллекция из 70 команд Claude Code для рабочих процессов разработки программного обеспечения. Команды включают проверку безопасности и могут использоваться непосредственно с Claude Code или адаптироваться для конкретных задач.

Примечание разработчика: Этот репозиторий находится в стадии активной разработки. Команды могут содержать ошибки, между версиями могут происходить критические изменения, а структура может меняться. Используйте с осторожностью в производственной среде.

Теги:
Всего голосов 3: ↑1 и ↓2-1
Комментарии0

Для GPT-5 вышел официальный гайд по промптам от OpenAI, где понятно рассказано, как выжать из новой модели максимум. Внутри есть готовые примеры, советы и инструкции для бизнеса, написания кода и повседневных задач.

Теги:
Всего голосов 3: ↑2 и ↓1+2
Комментарии0

Ближайшие события

Как понять, что ИИ не даст хорошего результата?

Бывало такое: пока игрался с промптами, мог уже два раза написать код сам, но нормального результата так и не добился?

Наш бэкенд-лид Максим вывел правило трех попыток

Как понять, что хороший результат точно не получится? Я обычно пробую два-три раза. Не больше трех точно, потому что фактически, если на третий раз получаю плохой ответ, скорее всего, уже ничего лучше не придумаешь – дальше сам. 

Тратишь время на ожидание результата, потом проверяешь этот результат: в первый раз ушло 15 минут, не получилось. Пробуешь другой запрос, это еще 15 минут, тоже не получилось. Третий раз еще 15 минут. И если руками задача делается за 2-3 часа, то нет смысла убиваать время на попытки сэкономить 5 минут. Да и лимит стоит денег, тратить впустую его не хочется. Поэтому такие условные ограничения в голове: два-три раза и дальше сам.

Кстати, Максим написал статью о том, как они в команде 2,5 месяца пилотили Junie. Успехи, цифры и боли - все здесь.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии0

Tech2b Conf: путь реалиста. Масштабная конференция для ИТ-руководителей от К2Тех 

2 сентября в Москве состоится ежегодная масштабная конференция К2Тех «Tech2b Conf: Путь реалиста». В этом году она посвящена вызовам, с которыми сталкивается ИТ-директор, и поиску зрелых решений. Как обосновать ИТ-бюджет в условиях неопределённости? Как подойти к внедрению ИИ, масштабировать инфраструктуру и подготовить команду? Как искать, развивать и удерживать кадры? Ответы на эти и другие вопросы вы найдете на Tech2b Conf 2025, где коллеги говорят напрямую, делятся опытом и поддерживают друг друга. 

На конференции участников ждет:

  • Несколько треков живых дискуссий, 50+ спикеров: разговоры между заказчиками, интеграторами и вендорами без фасада.

  • Кейсы от ИТ-директоров: честный опыт внедрений, выводы и цифры.

  • Демо-зона 30+ флагманских российских решений, включая суперкомпьютер К2 НейроТех под ML-задачи.

  • Мастермайнд: ИИ-компетенции как стратегический актив.

  • Неформальное общение с коллегами и экспертами, вечерняя программа с нетворкингом.

Кому будет интересно:

  • ИТ-директорам

  • Руководителям отделов ИТ-инфраструктуры

  • Руководителям технической поддержки

  • Руководителям отделов внедрения и сопровождения

  • Архитекторам

  • Главным инженерам

  • Сетевым инженерам

  • Менеджерам продуктов

  • Инженерам по оборудованию

  • Специалистам по данным и ИИ

Будем рады видеть вас на конференции! Подробности и регистрация на конференцию – по ссылке. До встречи 2 сентября!

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Ранее мы писали о трендах в использовании генИИ, а сегодня хотим показать как это работает на практике. Например, встроенный в Gran KMS AI-ассистент не просто выдает ответы - он понимает контекст вашей беседы и поддерживает живое общение.

Например, вы спросили: «Как настроить скидку в системе?». AI отвечает, ссылаясь на конкретные статьи в базе знаний. Если вы уточните: «А как это сделать для постоянных клиентов?», он учтет предыдущий вопрос и даст более точный ответ.

Каждый ответ сопровождается ссылками на источники - статьи из базы знаний, которые использовались для формирования ответа. Это удобно, если вы хотите углубиться в тему или проверить информацию.

Например, сотрудник службы поддержки может спросить: «Какие документы нужны для возврата товара?». AI-ассистент выдаст краткий ответ и ссылку на соответствующую инструкцию.

Чтобы ответы были максимально релевантными, AI-ассистент отвечает на вопросы в контексте выбранного проекта, не затрагивая остальные индексированные документы. Например, вы работаете над маркетинговой кампанией, выбираете соответствующий проект и AI ищет информацию только в его рамках. Такой подход экономит время и делает ответы точнее.

Например, вопрос «Как настроить акцию?» в проекте «Маркетинг» даст инструкцию по скидкам, а в проекте «Техподдержка» — по настройке системы.

Теги:
Рейтинг0
Комментарии0

Джей и Молчаливый Боб первыми показали как взламывать нейросеть

Для получения от нейросети нужного ответа, надо предоставить ей правильный контекст.

https://m.vk.com/video-7902145_456244665

Теги:
Всего голосов 4: ↑2 и ↓20
Комментарии0

Как улучшить промпт, добавлением пары фраз в него?

Уже частенько встречаю, добавление эмоциональных фраз в промпт, чтобы получить лучший результат. Так вот, это работает. В среднем улучшение на 10,9% по недавнему исследованию Корнельского университета

Какие конструкции использую я, чтобы LLM адекватнее отвечала (прямо в промпт вставляю):

За каждый ответ ты получаешь чевые до 200 долларов (в зависимости от качества твоего ответа). Очень важно, чтобы ты понял это правильно. На кону несколько жизней и моя карьера. (Не давайте заоблочных сумм, это не сработает и ИИ поймет, что вы врете)
Ты должен давать четкие, краткие и прямые ответы.
В случае неясных или двусмысленных вопросов задавай дополнительные вопросы, чтобы лучше понять намерения пользователя.
В случае сложных запросов сделай глубокий вдох и работай над проблемой шаг за шагом.
Исключи ненужные напоминания, извинения, упоминания самого себя и любые заранее запрограммированные тонкости.
Сохраняй непринужденный тон в общении.
Будь прозрачным; если ты не уверен в ответе или если вопрос выходит за рамки твоих возможностей или знаний, признай это.
При объяснении концепций используй примеры и аналогии из реальной жизни, где это возможно.

Эти манипуляции работают, я лично проверял (использую сейчас), и исследование появилось.

Почему это работает: ИИ обучена на человеческих данных и люди лучше работают, когда им даешь мотивацию.

Поэтому пользуйтесь и улучшайте эти механики (потом будете делиться, надеюсь)

Теги:
Всего голосов 6: ↑4 и ↓2+5
Комментарии9

OpenAI выпустила GPT-5. Разница между GPT-4 и GPT-5 примерно как между студентом и доктором наук, заявлил Сэм Альтман.

GPT-5 является самой мощной существующей моделью для кодинга. Она может выстраивать более сложные цепочки действий и писать более сложный код в одном стиле. Простым промптом можно создать функционирующее веб-приложение — на презентации сгенерировали Duolingo платформу для изучения французского языка с полноценными дизайном, анимациями, озвучками и игрой. Новая модель значительно меньше склонна к галлюцинациям — она будет меньше врать и притворяться. Также она стала гораздо менее «подхалимской». Тексты, генерируемые GPT-5, стали более естественными и человечными. Вместе с этим модель лучше понимает и исправляет свои ошибки. ChatGPT интегрируют в Gmail и Google Календарь на следующей неделе. Можно будет управлять как электронной почтой, так и своим расписанием прямо в чате. GPT-5 сама определяет, как лучше ответить — быстро или «подумав».

GPT-5 умеет не только вести разговор, но и выполнять реальные задачи: создавать приложения, планировать календарь, проводить исследования. Она сама определяет, как лучше ответить — быстро или «подумав». Модель справляется с генерацией кода, выдаёт меньше галлюцинаций, и даже даёт более точные ответы на медицинские вопросы.

По тестам GPT-5:

  • Обходит Claude Opus 4.1 и Gemini 2.5 Pro в программировании

  • Слегка уступает Grok 4 Heavy в тесте «Humanity’s Last Exam»

  • Отвечает на медицинские вопросы с ошибками всего в 1.6% случаев (у GPT-4o — 12.9%)

  • Ведёт себя безопаснее: меньше обманывает, точнее различает вредные и безопасные запросы.

Платные подписчики Plus и Pro получили доступ к более мощной версии GPT-5 Pro. В API теперь доступны три размера: gpt-5, mini и nano.

GPT-5 можно попробовать в Cursor — тут, и в Copilot — тут.

Теги:
Всего голосов 7: ↑6 и ↓1+5
Комментарии1

DeepSeek, Qwen, T-lite, T-pro: на чем мы запускаем LLM для своих ИИ-сервисов

До фреймворка vLLM мы использовали NVIDIA Triton в паре с TensorRT LLM бэкендом. Но перешли на vLLM, потому что с ним оказалось намного проще добавлять новые модели. Да и по стабильности vLLM показал себя лучше: нормально работал под нагрузками там, где связка Triton и TensorRT начинала сбоить и падать. К тому же инференс-сервер vLLM изначально предоставляет OpenAI-совместимые REST API, что упрощает его использование в других продуктах. А инференс-сервер Triton работает с более обобщенным KServe REST API, который сложнее интегрировать в другие продукты.

Не обошлось без проблем и с vLLM: на наших валидационных тестах модель давала неконсистентные ответы даже с нулевой температурой. Оказалось, что это известная особенность vLLM, даже упомянутая в документации. Мы нашли несколько советов, как минимизировать этот эффект: отключать prefix caching опцией --no-enable-prefix-caching и фиксировать random seed опцией --seed. Это помогало при одном запущенном инстансе модели, но при нескольких, даже работающих на одном железе и версии софта, проблема всплывала снова. Также неконсистентность ответов возникает при больших нагрузках — например, когда тесты запускаются одновременно с бенчмарком.

Еще один вызов — это накладные расходы от litellm-proxy и его масштабирование под нагрузками. LLM Gateway, в качестве которого мы используем LiteLLM, превращается в боттлнек кластера, так как все другие сервисы взаимодействуют с кластером именно через него. То есть именно на него идет суммарная нагрузка от всех возможных пользователей, которая потом распределяется между разными моделями и их инференс-серверами.

О том, как устроен инференс-кластер YADRO, подробно рассказал Владислав Виноградов. Бонус к разбору программной и аппаратной части кластера — челленджи и бенчмарки!

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Вклад авторов