Обновить
1084.48

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

Приложение Sora 2 доступно пока по приглашениям и работает только на устройствах Apple, но видеороликами из него забиты уже все ленты социальных сетей. Хотя это просто очередной генератор видео, OpenAI позиционирует приложение как соперника TikTok в деле разжижения мозгов и уничтожения способности удерживать внимание. Разница лишь в том, что контент создаёт генеративная нейросеть на основе промптов пользователей. Бесполезно проводить время предлагается за просмотром шлака от ИИ.

Заявляется, что относительно первой версии модель Sora 2 значительно более продвинутая. Это очевидно даже по описанию технических характеристик: Sora 2 генерирует 10-секундные клипы с синхронизированной аудиодорожкой, в то время как первая итерация модели умела создавать только видеоряд. Клипы могут быть ремиксом или начинаться со статичного изображения, а особую популярность снискала функция камео.

На практике это означает, что все ленты сейчас заполнены Сэмом Альтманом, ворующим игровые видеокарты из магазинов электроники. Ну а чего вы хотели? Фантазии у первопроходцев мало, да и его лицо в редакторе — это одно из предлагаемых. В лучшем случае он будет ползать по полу офиса OpenAI в кигуруми кота и истошно мяукать.

На самом деле интересные бенчмарки всё же придумывают. К примеру, как показывает Кристофер Фрайант, Sora 2 выдаёт отлично выглядящие 10-секундные клипы геймплея любой популярной видеоигры. Многие хвалят Sora 2 за отличное понимание физики.

Как утверждает дата-саентист из Meta¹ Колин Фрейзер, не всё так однозначно. У себя в микроблоге он показал несколько примеров откровенных косяков Sora 2. Ниже представлена склейка шести из них.

Здесь опробованы разные промпты. Чаще всего они связаны с отделением одного объекта от другого или их совмещением в единое целое. Как показал скептик, с взаимодействием объектов в кадре у Sora 2 откровенно туго:

  1. Вылезающий из автомобиля человек. В ответ на промпт Фрейзера модель зажимает ногу человека дверью.

  2. Прыгающий через обруч пёс никуда не прыгает.

  3. Пиво ведёт себя как желе, у бармена с пальцами случилась каляка-маляка.

  4. Кстати, попытки упростить промпт про вылезание из машины ничего хорошего не приносят.

  5. Даже когда Колин явно задал в промпте состояние стакана, сосуд с апельсиновым соком опустошён до дна не был — уровень жидкости даже не изменился.

  6. Ну и задувание свечей всё так же на реальность не походит.

Твиты Фрейзера вызвали резко негативную реакцию. У себя в микроблоге он пожаловался, что люди в ответ на поиск изъянов начинают злиться. Колин не понимает, почему многие настолько эмоционально инвестированы в какое-то приложение для генерации и листания видеороликов.

(1) Холдинговая компания Meta — экстремистская организация, её деятельность запрещена.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Аналитики Citigroup повысили прогноз по инвестициям в инфраструктуру искусственного интеллекта крупнейших IT-компаний. По их оценке, к 2029 году расходы превысят $2,8 трлн, тогда как ранее ожидалось $2,3 трлн. Рост вызван агрессивными вложениями облачных гигантов (Microsoft, Amazon, Alphabet) и растущим спросом бизнеса на вычислительные мощности.

Ожидается, что только к концу 2026 года затраты гиперскейлеров на ИИ-инфраструктуру достигнут $490 млрд против прежнего прогноза в $420 млрд. Основной драйвер инвестиций — взрывной рост запросов на обучение и работу ИИ-моделей. По оценкам, к 2030 году глобальный спрос на вычисления потребует дополнительно 55 ГВт мощности, а стоимость каждого гигаватта инфраструктуры достигает $50 млрд.

Примечательно, что на фоне ИИ-бума IT-компании больше не ограничиваются финансированием из прибыли — им приходится занимать средства. Эти расходы уже заметно сокращают свободные денежные потоки и инвесторы задаются вопросом, как бизнес продолжит поддерживать столь масштабные вложения в ИИ.

Теги:
Рейтинг0
Комментарии1

Первые впечатления от использования Claude Sonnet 4.5

В целом, хорошие впечатления.

Работает быстро.

При написании кода не сделал ни одной ошибки.

Заметно лучше держит контекст. Быстро ознакомился с проектом и очень неплохо следует правилам.

Единственное, что нередко сразу бросается в бой и начинает писать много кода. Что сжигает кучу токенов. Поэтому взял за привычку не расслабляться и каждый раз напоминать, когда писать код, а когда обсуждение, или псевдокод.

В общем, ощущения такие, что работает чисто, уверенно, надёжно.

Стиль общения вполне комфортный

Теги:
Всего голосов 3: ↑2 и ↓1+1
Комментарии0

Искусственный интеллект от OpenAI планирует потреблять больше энергии, чем Великобритания или Германия через пять лет, больше Индии за 8 лет. И таких компаний все больше — Anthropic Claude, Mistral, LLaMA, Cohere, Grok, Google AI, Bing Chat, Ernie Bot DeepSeek.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии1

Авторы из AI Institute, University of Montreal, Princeton University. Статья внушает доверие. Она также подтверждается моими собственными наблюдениями

Ребята говорят о экономии токенов на модельках, 46% меньше потребление ресурса + как следствие ускорение

Суть в том, что модели много рассуждают об известных фактах. Например, если модель попросить решить уравнение с геометрической прогрессией. Она сначала его выведет, а потом будет решать. И так шагов может быть много. У больших моделей есть привычка «думать вслух». Они, когда решают задачу, раскладывают всё по шагам — иногда очень длинно. Это классно для качества, но плохо для скорости и денег: чем больше токенов, тем дороже и медленнее

Пример на прогрессии

Ты просишь модель: «реши уравнение с геометрической прогрессией»

Что она делает?

  • Сначала начинает выводить саму формулу суммы прогрессии: пишет длинное рассуждение, как она получается.

  • Потом подставляет числа.

  • Потом делает вычисления.

  • И только в конце даёт ответ.

Каждый раз она повторяет эту историю, как будто «заново изобретает велосипед».

Что предлагают авторы статьи

Ребята говорят: зачем каждый раз заново выводить одно и то же? Давайте выделим такие повторяющиеся шаги в маленькие «карточки-подсказки» (они называют их behaviors).

Например, поведение:
«Сумма первых n членов геометрической прогрессии = (a₁(1–qⁿ)) / (1–q)».

Теперь, когда модель решает задачу, мы ей сразу даём эту карточку. Она не тратит сотни слов на то, чтобы вывести формулу, а сразу использует её.

Почему это полезно

  • Экономия ресурсов: в экспериментах до 46% меньше токенов.

  • Ускорение: модель тратит меньше времени на текст.

  • Качество не падает, а иногда даже лучше — потому что меньше места для ошибок.

Итог

  • Классика: модель сама думает длинно, это дорого и долго.

  • Новый подход: мы даём ей готовые «кирпичики рассуждений» (behaviors), она использует их и отвечает быстрее.

  • В общем виде: решение = текст задачи + набор подсказок.

Тут можно формулы привести со всякими условными вероятностями. Душнить не буду. И так надо форточку открывать

Ссылка на статью, как обычно, в моём канале

——————
Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

Теги:
Всего голосов 3: ↑0 и ↓3-3
Комментарии0

OpenAI представили ресурс Prompt Packs — 300+ готовых промптов под конкретные профессии: от программистов и эйчаров до маркетологов и менеджеров по продажам.

Все материалы собраны в разделе Prompt Packs на сайте OpenAI Academy. Компания отмечает, что такие шаблоны помогают ускорить выполнение рутинных задач и лучше встроить ChatGPT в повседневную работу специалистов.

Теги:
Всего голосов 3: ↑3 и ↓0+6
Комментарии0

Так синяя или красная?

Дед забыл выпить таблетки и понеслось...
Итак - давайте представим что мы находимся в далеком и светлом будущем в котором есть супер-МРТ которое может сделать снэпшот любого куска пространства на уровне атомов (ну или глубже), энергия, спины - вот это вот все.
И раз уж мы в будущем, то у нас определенно есть супер кампуктер который может запустить симуляцию куска мира из этого самого снэпшота.

Эксперимент: Олег и случайное число.
Берем условного Олега и садим его в полностью изолированную комнату. Дополнительно к этому вырубаем Олегу чувствительность какой-нибудь супер таблеткой - мозг полностью изолирован от внешнего воздействия.
Просим Васю подумать 10 секунд и назвать любое случайное число (не важно как мы коммуницируем с изолированным мозгом Олега - не надо душнить).
В тот же самый момент снимаем снэпшот мозга и запускаем симуляцию. Что будет через 10 секунд? Очевидно Олег и симуляция выдадут одинаковые ответы? Любые квантовые эффекты и прочие случайности мы не принимаем в рассчет - считаем что в будущем со всем разобрались и нашли все зависимости.

Далее мы повторяем эксперимент. Но кампуктер запускаем на полную мощность - так что он выдает результат практически мгновенно - 42. Через 10 секунд Олег выдает нам те же 42.

Получается что ответ уже есть в мозге на момент задания вопроса, а возможность что-то решить лишь иллюзия.

Более того - то самое текущее состояние мозга - оно тоже не ваше. Оно сформировано другими "нейросетями" в виде родителей и окружения + случайными событиями, которые тоже не случайны.

Вся история уже написана - мы лишь зрители которые смотрят сезон за сезоном этот сериал.

Осень, грустно, пойду пить таблетки

Теги:
Всего голосов 9: ↑4 и ↓5+3
Комментарии21

Разработчик Ли Робинсон (занимается обучением в ИИ-проекте Cursor) представил учебный курс Cursor Learn, который состоит из шести видеоуроков по основам ИИ и суммарно занимает около часа. Проект не посвящён машинному обучению или обучению собственных моделей, а предназначен для начинающих пользователей, которые хотят использовать нейросети в работе.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Как ИИ‑инструменты меняют разработку, дизайн и даже наши привычки — делимся подборкой материалов из журнала КОД:

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Менеджер Stripe Кэмерон Маттис простым способом отфильтровывает ИИ-рекрутеров, он добавил в раздел «О себе» в LinkedIn простой промпт для нейросетей с просьбой вставить в сообщение рецепт испанского пудинга. Это работает, ему присылают рецепты в предложениях о работе.

Теги:
Всего голосов 4: ↑4 и ↓0+5
Комментарии0

Составили рекомендации, как безопасно разрабатывать ИИ‑агентов и мультиагентные системы

Команда Security Yandex Cloud опубликовала руководство по снижению рисков при разработке и внедрении агентов на базе LLM. Мы обобщили опыт создания агентов для ML, Security и других сервисов Яндекса, которые уже используют агентную систему и генеративные технологии компании.

Результатом этой работы стал подход к разработке модели угроз при внедрении, а также методы защиты для ключевых компонентов:

  • самих генеративных моделей,

  • модулей и баз знаний, которые используются в работе ИИ‑агентов.

Особое внимание мы уделили безопасности данных и предотвращению рисков, возникающих из‑за автономности агентов.

Читать документ

При подготовке рекомендаций мы также учли лучшие практики международных организаций, включая OWASP®, NIST и MITRE ATT&CK®.

Предложенные в документе принципы безопасной разработки используются на всех этапах при создании автономных или взаимодействующих между собой ИИ‑агентов в сервисах Яндекса. Команды безопасности ещё на стадии проектирования изучают будущую архитектуру и проверяет её на безопасность. Затем специалисты тестируют код на возможные уязвимости и проверяют на соответствие стандартам безопасной разработки.

Яндекс также изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. Антиробот Яндекса защищает ИИ‑сервисы от злоупотребления и эксплуатации уязвимостей. Сервис Yandex Smart Web Security теперь содержит ML WAF — технологию для защиты от веб‑атак на основе машинного обучения, которая даёт более широкое покрытие векторов атак за счёт сочетания сигнатурного анализа и ML. Центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Ещё один инструмент для проверки и усиления безопасности ИИ — направление программы Яндекса «Охоты за ошибками», связанное с генеративными нейросетями.

Теги:
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

В Рег.облаке запустили облачные серверы с ИИ-ассистентом

В Рег.облаке стало доступно новое локальное решение для запуска и управления языковыми моделями LLM. Облачный сервис разворачивается за несколько минут и работает в изолированном окружении: данные и доступ полностью контролируются пользователем.

Что входит в образ:

  • Ollama — фреймворк для запуска и управления LLM-моделями;

  • Open WebUI — веб-интерфейс для работы через браузер;

  • предустановленные модели Gemma 3, DeepSeek и Grok, с возможностью подключения моделей из Ollama и Hugging Face.

Основные возможности:

  • интеграция через API во внутренние сервисы;

  • подключение документов и баз знаний для контекстных ответов;

  • параллельный запуск и сравнение нескольких моделей;

  • плагины Open WebUI для работы с файлами и данными;

  • работа с конфиденциальной информацией без передачи в публичные сервисы.

ИИ-ассистент доступен в конфигурациях с CPU и GPU. Для работы с несколькими моделями рекомендована конфигурация с NVIDIA A5000 (24 ГБ), 16 vCPU и 64 ГБ RAM. Заказать и протестировать сервер с ИИ-ассистентом можно уже сейчас на сайте Рег.облака.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Альфа-Банк совместно с ИТМО запускает бесплатную программу повышения квалификации для преподавателей

Совместно с Университетом ИТМО (лидером рейтинга вузов по качеству подготовки специалистов в области искусственного интеллекта) разработали программу повышения квалификации для преподавателей вузов. В программе научим работать с искусственным интеллектом, встраивать его в образовательный процесс и смело использовать со студентами.

Что ждёт участников:

  • Курс пройдёт с октября по декабрь (72 академических часа).

  • Вебинары с экспертами (прямые эфиры).

  • Онлайн-консультации для ответов на все интересующие вопросы.

  • Видеоуроки и практика, чтобы изучать темы в удобное время.

  • Финальная защита проектов в Санкт-Петербурге.

  • Удостоверение о повышении квалификации установленного образца.

Если вы преподаватель, то оставляйте заявки по ссылке, чтобы работать с искусственным интеллектом рука об руку ❤️

Вы изучите широкий спектр тем — от общих вопросов и этики ИИ до практических задач и методических особенностей преподавания искусственного интеллекта в вузах.

Записаться можно на один из 3 образовательных треков:

  • Базовый — про введение в возможности ИИ.

  • Средний — про технологии ИИ и их применение.

  • Продвинутый — про преподавание ИИ в университетах.

Больше информации, контакты и форма для заявки на обучение по ссылке ❤️

Теги:
Рейтинг0
Комментарии0

Ближайшие события

Первая в России конференция про ускорение разработки с помощью ИИ: реальные кейсы, судьба разработчиков и риски спагетти-кода

На Хабре до сих пор спорят про пользу вайбкодинга и вымирание профессии программиста. Тем временем бигтех уже использует AI-агентов, которые берут на себя больше, чем написание кода. В T-Tech они ведут задачи в SDLC и общаются друг с другом без дейликов, а Яндекс и Магнит обучают агентов управлять продуктами без человека. Это не эксперименты, а рабочий продакшн: релизы не откладываются на месяцы, счет идет на дни. 

Мы в Surf собрали на одной площадке тех, кто уже живёт в этой новой реальности: CTO, QA-лидов, техдиров и исследователей из Яндекса, Ozon, Surf, Сбера, T-Tech и других. Они расскажут и покажут всю подноготную своих проектов с ИИ 3 октября, на первой в России конференции по ускорению разработки с ИИ AI Boost 2025 в Москве.

 >> Программа и регистрация <<

О чем расскажут на встрече:

  • Евгений Сатуров, CTO Mobile Surf покажет, как обучить вайбкодингу полсотню разработчиков и при этом не нажить врагов в команде.

  • Александр Поломодов, технический директор T-Tech расскажет, когда автономные ИИ-агенты становятся полноценными участниками SDLC и начинают взаимодействовать друг с другом. Разберём переход от привычных AI-ассистентов вроде Cursor к ИИ-агентам.

  • Мария Лещинская, Head of QA в Surf и кандидат технических наук по ИИ и ML объяснит, как shift-left подход и автогенерация автотестов помогают ускорять delivery и повышать качество продукта.

  • Александр Коренев, руководитель IT-проектов в Банке «Левобережный» поделится кейсом внедрения ИИ в банковские проекты с нуля: от обучения персонала до автоматизации рабочих процессов.

  • Альбина Галлямова, социобиолог из НИУ ВШЭ поделится научной подоплекой: выживут ли «обычные» разработчики в мире, где нейросети берут на себя всё больше задач?

Докладами не ограничимся — собрали экспертов на круглые столы, где обсудим самые горячие вопросы: 

  1. «Внедрение ИИ vs Безопасность»
    Эксперты из Ozon, Сбера, Positive Technologies и Surf обсудят, как сочетать скорость релизов с безопасностью, где прячутся уязвимости AI-решений и зачем компании вводят ограничения на LLM.

  2. «ИИ в продакшн: спасение или новый спагетти-код?»
    Представители Магнита, Яндекса, Surf и Атол расскажут, как нейросети ускоряют релизы, можно ли доверять им архитектуру и сложные задачи и как можно в этих условиях вырасти от джуна до тимлида.

Кому будет полезно:

  • C-level и руководителям разработки — если ищете способы прокачать delivery и эффективность команд.

  • Тимлидам и senior-разработчикам — если хотите разгрузить команду от рутины, улучшить качество кода и внедрить AI-практики в ежедневную работу.

  • Продуктовым и проектным менеджерам — если планируете AI-проекты и хотите понимать, как реалистично оценивать сроки, риски и ресурсы на AI-разработку.

  • ИИ-энтузиастам — если хотите разобраться и перенять лайфхаки по работе с ИИ для себя и своих проектов. И неважно, джун вы или сеньор. 

Формат и участие

Конференция пройдет 3 октября (пятница) в Москве, локация — ДК Рассвет. Начало в 12:00. Вас ждет 9 часов контента, нетворкинга и новых идей для своих проектов. А еще — возможность получить бесплатную консультацию с CTO Surf по внедрению ИИ-процессов в своих проектах.

По ссылке — регистрация и подробная программа.

🔥 Дарим специальный промокод для хабровчан со скидкой 2000 руб.: surfhabr

До встречи ;) 

Теги:
Всего голосов 12: ↑11 и ↓1+10
Комментарии0

🚀 Объём корпоративных данных растёт на десятки процентов в год, а специалистов всё так же не хватает. В статье для VC.RU мы вместе с Екатериной Ризановой рассказали, как ИИ-агенты помогают решать эту проблему: берут на себя рутинные задачи в хранилищах данных и BI-системах, ускоряют работу команд и экономят компаниям миллионы рублей в год.

ИИ-агент — это не чат-бот. Он сам выполняет действия: анализирует код витрин, строит lineage, генерирует SQL, находит инсайты и помогает сотрудникам сосредоточиться на действительно важных задачах.

👉 Делюсь материалом: https://vc.ru/ai/2233616-ii-agent-dlya-rabotyi-s-bolshimi-dannymi

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Как вайб-кодить с вайбом, а не с техдолгом и багами 👨‍💻✨

Разберемся в этом на вебинаре с нашим техническим экспертом Сашей Константиновым. Будет полезно всем, кто работает с кодом и данными — вы узнаете, как с помощью AI писать код быстрее и не проседать при этом в качестве.

Поговорим о том, как:

  • Научить IDE кодить в вашем стиле, предсказуемо и по нужным стандартам.

  • Подключить языковую модель к VS Code. Рассмотрим все на примере LLM из Evolution Foundation Models.

  • Мониторить безопасность и качество кода в SonarQube.

📅 Когда? 30 сентября в 11 по мск.

📍 Где? Онлайн — вам осталось только зарегистрироваться →

Теги:
Всего голосов 2: ↑1 и ↓10
Комментарии0

Эксперты сообщили, что текущая ситуация на рынке ИИ-технологий напоминает финансовую пирамиду. Например, OpenAI платит миллиарды долларов Oracle, которая платит Nvidia, которая инвестирует в OpenAI. В итоге OpenAI покупает мощности Oracle. Акции Oracle дорожают, и компания закупает чипы у Nvidia. Акции Nvidia дорожают, и компания инвестирует в OpenAI.

«Жизненный цикл» с зависимостями. Например, Nvidia поставляет Oracle чипы, а та предоставляет кредиты на облачные услуги. OpenAI нужны мощности, а Nvidia — чтобы покупались её чипы.

Теги:
Всего голосов 1: ↑1 и ↓0+2
Комментарии1

«Найди то, не знаю что» среди миллиарда сущностей 😱

Примерно так звучат задачи специалистов, которые работают с LLM. В новом выпуске нашего подкаста «Кофе-брейк» развеиваем миф о том, что ИИ отберёт у всех нас работу (спойлер: не у всех), и обсуждаем, как вообще устроен поиск по ключевым словам. А помогает нам в этом Денис Шавейников — руководитель команды поиска VK.

Хватайте капучино и включайте выпуск ☕️

Теги:
Всего голосов 14: ↑13 и ↓1+16
Комментарии0

3 неочевидных способа сэкономить на инференсе ML-модели в облаке кроме автоскейлинга 💸💸💸

Привет! Сегодня хотим поделиться тремя полезными способами сэкономить на инференсе, которые работают в облаке, причем, не только у нас (что? да!).  

А то ведь как бывает: запустишь свою крутую LLM-ку в продакшен, а счет прилетает такой, что хочется отключить обратно. Горизонтальный скейлинг не всегда выход. Но дешевле — не значит менее производительно. Мы приведем алгоритмы для сервиса Evolution ML Inference, но их можно адаптировать для любого провайдера. 

Способ 1. Использовать Sleep Mode vLLM 🔧

Способ работает только для языковых моделей (LLM), таких как Qwen, LLaMA, Mistral и других, запускаемых через vLLM. С диффузионными моделями, CV и временными рядами фокус не прокатит. Sleep Mode временно выгружает веса модели из GPU в RAM, освобождая до 90% видеопамяти. А раз GPU-ресурс не используется, то и не тарифицируется. «Разбудить» модель можно за секунды и без полной перезагрузки. 

Что делать: 

1. Запустите модель в ML Inference с runtime vLLM.

2. Включите режим разработки:

   VLLM_SERVER_DEV_MODE=1

3. Добавьте флаг:

   --enable-sleep-mode   

4. Управляйте через HTTP:

   ⦁ POST /sleep?level=1 — выгрузить веса, сохранить возможность быстрого запуска.

   ⦁ POST /wake_up — вернуть модель в активное состояние.

Когда применять: 

  • В сценариях с неравномерной нагрузкой (например, днём активность, ночью — нет).

  • Между итерациями RLHF, когда нужно освободить GPU. 

Способ 2. Serverless + Scale to Zero 🔧

Способ подходит вообще для всего. Суть в том, что контейнер с моделью останавливается при отсутствии запросов, освобождая все выделенные ресурсы (GPU, RAM, CPU). Кеш модели сохраняется, но тоже не тарифицируется в период простоя — PROFIT! При поступлении нового запроса модель запускается из кеша — и тут, мы, конечно, имеем проблему с задержкой при «холодном старте». Но пара секунд ожидания экономит нам сотни тысяч.

Что делать: 

1. При создании инференса в ML Inference:

   ⦁ Установите min_replicas = 0.

   ⦁ Выберите тип масштабирования: RPS или Concurrency.

2. Убедитесь, что Idle-таймаут = 40 сек.

Когда применять: 

  • Для MVP, демо, внутренних API.

  • Сценариев с нерегулярной нагрузкой (например, 100 запросов в день).

  • Моделей, где допустима небольшая задержка при первом запросе.

Способ 3. Time Slicing GPU 🔧

Способ работает в рамках Managed Kubernetes (MK8s), при условии, что в кластере создана группа узлов с GPU NVIDIA Tesla V100. Суть в том, что одна физическая GPU делится между несколькими подами (например, 5 подов по 1 GPU): каждый получает свою долю времени, как если бы у него была выделенная карта. 

Что делать: 

1. Создайте кластер Managed Kubernetes с узлом, где:

   ⦁ GPU: NVIDIA Tesla V100.

   ⦁ Количество GPU: 1.

2. Настройте Time-Slicing. Создайте ConfigMap:

   apiVersion: v1

   kind: ConfigMap

   metadata:

     name: time-slicing-config

     namespace: gpu-operator

   data:

     tesla-v100: |-

       version: v1

       sharing:

         timeSlicing:

           resources:

             - name: nvidia.com/gpu

               replicas: 5

   Примените: kubectl apply -f cloudru-time-slicing.yaml

3. Установите NVIDIA GPU Operator. В Личном кабинете Cloud.ru:

   ⦁ Перейдите в кластер → Плагины → Добавить.

   ⦁ Выберите NVIDIA GPU Operator.

   ⦁ В расширенной конфигурации укажите:

     devicePlugin:

       config:

         name: time-slicing-config

         default: tesla-v100

4. Проверьте работу. Запустите Deployment с 5 репликами:

   resources:

     limits:

       nvidia.com/gpu: 1

Все 5 подов должны перейти в статус Running.

Когда применять: 

  • Для тестовых и демо-сценариев, стартапов или MVP.

  • Для низконагруженных задач — инференс небольших моделей, дообучение, RLHF.

  • Для команд разработки, чтобы работать в одном кластере и делить ресурсы.

А какие нестандартные методы оптимизации бюджета используете вы? Собираем коллекцию советов для экономных в комментариях!

Теги:
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

MCP архитектура как развитие ручного подхода в LLM

Когда вы открываете ChatGPT и вставляете туда кучу текста — что реально происходит?
Всё складывается в один длинный «бутерброд»: данные, инструкции, системный промпт, даже куски схемы в Markdown. Никакого порядка. Это как если бы у вас в кодовой базе был один файл main.py, где и роуты, и бизнес-логика, и SQL-запросы.

Я хочу описать идею MCP кратко, поскольку в самой доке она не описана. А может быть даже и не закладывалась туда. Но очень похоже, что такая архитектура хорошо работает исходя из более фундаментальных принципов, чем просто разделение

Как это выглядит у ChatGPT

На схеме выше видно:

  • Есть Line Edit — пользователь копипастит сырые данные.

  • Есть Плагин — иногда он что-то подмешивает.

  • Всё это сливается в один большой Склеенный промпт, который уходит в LLM.

Мешанина как она есть

Как это делает MCP?

MCP приходит и говорит: «ребята, давайте хоть модули разнесём».

  • System Prompt — отдельная часть, где живёт логика «как правильно жить» для модели.

  • Instruction Layer — патчи и локальные корректировки.

  • Schema Registry — отдельный каталог, который описывает структуру данных (таблицы, поля, форматы).

  • Data Adapter — слой, который достаёт данные у провайдера строго по схеме.

  • Всё это связывает MCP хост, который собирает финальный запрос к LLM, который зачастую представляет собой Lang Chain

Итог: модель получает запрос не как «мусорный мешок», а как структурированный pipeline.

Почему это важно

  • Прозрачность. Можно отследить, какая часть отвечает за что.

  • Контроль. Можно менять системный промпт без страха поломать данные.

  • Расширяемость. Хочешь новый источник данных? Добавь адаптер, а не переписывай всё.

  • Предсказуемость. Поведение модели становится ближе к детерминированному.

Простая метафора

  • ChatGPT — это когда у вас «final_final_v3.docx» и все правят его параллельно.

  • MCP — это когда у вас git с ветками, пайплайнами и CI с CQRS архитектурой (не шутка), читай выше

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Вклад авторов