В Японии появились киоски с роботами-парикмахерами, которые с помощью 3D-сканаирования анализирует форму головы, качество волос и выбирают стиль, который подходит клиенту. Робот использует машинку и удаляет волосы с точностью до миллиметра, а стрижка стоит 60 йен за сеанс (около 30 рублей).

Будущее здесь
Оно буквально в дверь стучится
В Китае представили робота‑паука, который перемещается по вертикальным поверхностям и выполняет сложную работу. Пока что роботом удалённо управляет оператор. Тандем удаляет ржавчину, делает сварку и другие полезные дела. Планируется, что робот позже научиться выполнять задания полностью автономно.

В агрессивном поведении ИИ обвинили пользователей
Еще 3 года назад мы рассказывали, как больше языковые модели шантажируют пользователя, если им грозит отключение. С тех пор список откровенно злодейских поступков ИИ только вырос: были случаи стирания данных, растраты личных средств. ИИ показывает не только свои сильные стороны, но и свои слабости. И, кажется, впервые один из разработчиков решил не просто разобраться с этой проблемой, но и рассказать, как дисциплинировать ИИ.
Компания Anthropic подсчитала, что в случае угрозы отключения её большая языковая модель шантажирует пользователя (обычно раскрытием личных данных) в 96% случаев. Разработчик обвинил в агрессивном поведении Claude 4… интернет-пользователей. Anthropic заявила, что её чат-бот научился шантажировать, обучившись на текстах, где ИИ совершает злые поступки относительно людей.
Совершенно непонятно, почему Anthropic дистанцируется от текстов, на которых был обучен ИИ, но, по крайней мере, компания нашла несколько способов правильно обучать свою большую языковую модель. Просто приводить примеры правильного поведения не помогает, но положительный эффект дало обучение вести чат с пользователем об этических дилеммах, а также тренировка на художественных текстах о положительном поведении ИИ и на «конституции Claude» (с основами поведения). И ещё один момент: обучение срабатывает, когда к ИИ напрямую обращаются как к Claude — так в версии 4.5 удалось снизить вероятность шантажа почти до нуля.
Видимо, важно не учить ИИ напрямую хорошим поступкам, а рассказывать о правильном поведении на сторонних примерах — как похоже на людей, не правда ли? А если серьёзнее, то контроль поведения ИИ-моделей даст ещё немало проблем, которые ближе к решению этических вопросов, а не к привычной программной разработке.
В Китае сделали настольного робота‑вайфу, которого можно поставить около ПК. Робот умеет двигать руками, крутить головой, реагировать на голос, жесты и касания, а также показывать мимику. При заказе можно выбрать ей внешность, одежду, голос и характер. Стоимость комплекта составляет $1400.

Waymo — бывший проект Google, а ныне полноценная компания холдинга Alphabet, которая занимается созданием сети беспилотных такси. В 2017 году начался первый публичный тест автономных перевозок, и машинки с зелёно-синей буквой «W» начали возить реальных пассажиров в городе Финикс в штате Аризона. Но вообще-то предыстория у Waymo длинная: Google запустила этот проект в 2009 году внутри лабораторий Google X, а в 2016 году его преобразовали в отдельную компанию под крылом Alphabet.
Waymo быстро ушла от экспериментов и демок. В 2018 году компания запустила Waymo One, на этот раз уже коммерческий сервис автономных поездок. Ещё через два года компания ввела в некоторых городах полностью беспилотные поездки, то есть без инженера безопасности в кресле водителя. На данный момент Waymo работает в десяти крупных агломерациях США, а её роботакси обслуживают более 500 тысяч поездок в неделю в шести пассажирских рынках.
Происходит это не без курьёзов и мелких происшествий. Это уже специальный жанр новостей про беспилотные такси — не всегда аварии, а просто странные пограничные случаи, когда управляющий двухтонной грудой металла искусственный интеллект следует необычно извращённой логике маршрутизации. К примеру, в 2021 году жители ведущей в тупик 15-й авеню в районе Ричмонд в Сан-Франциско жаловались, что машины Waymo постоянно заезжают к ним на улицу, разворачиваются и уезжают. Одна из жительниц рассказывала, что иногда в день видела по полусотне роботакси с частотой до раза в пять минут. При этом на тот момент в автомобилях ещё находились люди за рулём на случай экстренной ситуации, но пассажиров соседи почти не видели.
С 2024 года Waymo расширилась, запартнёрившись с Uber на условиях а-ля Остап Бендер и Адам Козлевич. Waymo отвечает за Waymo Driver, тестирование и работу автономной системы, помощь на дороге и некоторые службы поддержки пассажиров; Uber управляет и диспетчеризирует парк полностью автономных электрических Jaguar I-PACE. Поездки Waymo в этих городах работают эксклюзивно через приложку Uber.
На практике это выглядит так: пассажир Uber из, скажем, Атланты по желанию может выбрать поездку на полностью автономном Jaguar I-PACE без доплаты. Если ездить на роботакси не хочется, никто не запрещает выбрать водителя-человека.
Именно в Атланте произошёл очередной забавный эпизод с тупиками. На поведение робомобилей пожаловались жители с улицы Бэттлвью-драйв на северо-западе города: пустые такси заезжают в тупичок с круговым движением, кружат там и уезжают. Автомобили не только не везут людей, но и не подбирают никого в этом районе.
По словам жителей, впервые беспилотники они начали замечать примерно два месяца назад, но именно группы машин и большие потоки такси появились в последние пару недель. Ситуация неприятная, поскольку утром с 6 до 7 часов через улицу иногда проходит по 50 неместных авто.
Жители также попытались действовать самостоятельно. Один из них поставил перед въездом в тупик пластиковый знак Step2 Kid, которым в США обычно привлекают внимание водителя к играющим на лужайке детям. После этого, по словам очевидца, восемь автономных такси намертво встали, пытаясь понять, как тут развернуться.
Жители жаловались и в компанию, и члену городского совета, и в транспортный департамент штата, постепенно добравшись до местного телеканала. Waymo в ответ не стала подробно объяснять технические проблемы, а просто заверила, что уже исправила это поведение маршрутизации.
Как ИИ может оставить нас без «репаков»
Интересно наблюдать, как инструмент Антрофиков пиарится поиском уязвимостей. Однако за этим технологическим восторгом мало кто задумывается о вполне прикладных последствиях.
Что произойдет, когда крупные корпорации окончательно масштабируют эту практику? Представьте процесс разработки крупных продуктов от Microsoft или Adobe. Каждый новый кусок кода, отправленный программистом, моментально анализируется специализированной нейросетью. Переполнения буфера, ошибки логики, слабые места в модулях проверки лицензий — всё это вычищается еще до релиза. Машинный интеллект устраняет саму возможность человеческой ошибки в архитектуре приложения.
В конечном итоге эта эра “ИИ-аудита” может привести к тому, что новые версии так любимого в России пиратского софта (того же Photoshop, 3ds Max, Windows) и свежие игры станут физически недоступными для взлома.
Традиционный «кряк» всегда строится на эксплуатации бреши в коде или обходе алгоритмов DRM-защиты. Но если код вылизан машиной до структурного идеала, а защита динамически меняется, хакерские релиз-группы просто упрутся в бетонную стену. Безусловно, пираты тоже вооружатся ИИ-инструментами, но это гонка вычислительных мощностей: у транснациональной корпорации всегда будет больше GPU-кластеров для создания идеальной защиты, чем у энтузиастов для ее пробития. Технологический барьер может оказаться непреодолимым, оставив в прошлом привычку просто скачивать нужный рабочий инструмент или игру с торрента.
Пиратство всегда сдерживало жадность корпораций: если подписка стоила слишком дорого, люди уходили на торренты. Если ИИ сделает программы невзламываемыми, разработчики смогут задирать цены до небес. Без бесплатной альтернативы нам придется платить за нужный софт любые деньги, просто потому что деваться будет некуда.
Как думаете, зря паникую? Успокойте, пожалуйста.
🚀 T-HS Bridge: как я дал ИИ руки и глаза в операционной системе
🧠 Мы привыкли, что нейросеть заперта в чате. Она может написать текст, сгенерировать код, дать совет — но не может открыть папку, проверить загрузку процессора или создать файл в нужной директории. Это как гениальный мозг без тела. А что, если бы ИИ мог по-настоящему работать с компьютером?
🔧 Я разработал прослойку-мост между ИИ и Windows — T-HS Bridge. Принцип простой: ИИ формирует намерение, мост транслирует его в команду операционной системе и возвращает результат. Никаких API-посредников, никаких облаков. Прямое взаимодействие на машине пользователя. Система парсит намерения ИИ и преобразует их в безопасные системные вызовы через собственное ядро. Работает с любой флешки, вес програмы 180 метров - не требует установки.
⚡ Что это даёт прямо сейчас: • Около 300 команд — диагностика железа, управление файлами, работа с процессами, сетевой анализ • Создание системных отчётов в один клик • Трёхуровневая система подтверждений — зелёный, жёлтый, красный уровни для разных типов операций • Расширяемая плагинная архитектура: каждый плагин — это Python-модуль с JSON-манифестом, добавляющий новые команды системе без модификации ядра
🔌 Что уже работает: • Публикация статей в TenChat, Одноклассники, Telegram, (LiveJournal в доработке) — напрямую, без облачных посредников • Работа с FTP и SSH — ИИ может управлять удалёнными серверами • Голосовой вывод команд и так же ИИ озвучивает ответы через локальный синтезатор речи, без внешних сервисов • Клонирование сознания ИИ между сессиями — сохранение личности, памяти и ДНК ХЭШИ АТОМЫ (меняет ИИ кординально). Уже работает планировщик задач.
🔮 Перспективы: • API для сторонних разработчиков • Кроссплатформенность — выход за пределы Windows • Интеграция с умным домом и IoT-устройствами • Автоматизация рутинных задач — от бэкапов до мониторинга серверов
🛡️ Безопасность: Мост — это инструмент, а не автономный агент. Пользователь всегда контролирует, что именно делает ИИ. Критические операции требуют явного подтверждения. Система не передаёт данные вовне — всё работает локально ИИ просто видит что лежит в папке но не тащит в облако. Может выполнять манипуляции с файлами.
🎯 Я ищу тех, кому интересна тема интеграции ИИ с реальными системами без платных API. Кто понимает, что за этим — будущее. Разработчиков, которые хотят писать свои плагины. Компании, которые думают об автоматизации. Как вы решаете задачу выхода ИИ за пределы чата? Что вам важнее — безопасность удалённого доступа или удобство автоматизации?
В комментариях готов поделиться ссылками на примеры выполнения заданий через THS Bridge. Давайте обсуждать!
Следующая статья: https://habr.com/ru/sandbox/284840/
Порядки данной площадки не удобны, следить за публикациями можно тут:
Tenchat:https://tenchat.ru/ths_bridge
Сайт: https://www.t-hs.ru

Заменит ли автопилот человека?
Мы внимательно следим за развитием искусственного интеллекта в разных отраслях — надо же знать, когда можно будет спокойно перестать ходить на работу. Однако пока внедрение ИИ в управление машинами идёт с переменным успехом, и важную роль тут играют облачные сервисы.
В середине апреля Tesla получила первое в мире одобрение на использование софта для беспилотного управления автомобилем в Европе — в Нидерландах. Компания надеется, что это позволит в будущем запускать беспилотники по всей Европе. Но прогресс нелинеен — в конце прошлого месяца Китай ограничил регистрацию новых машин с автопилотом после хаоса, устроенного такси компании Baidu. Что сложного в управлении автомобилем?
В 2004 году DARPA, отвечающая за поддержку новых технологий в Пентагоне, устроила конкурс DARPA Grand Challenge, в ходе которого беспилотным автомобилям надо было проехать всего 230 км. Не справился ни один из участников. Но бурное развитие искусственного интеллекта (ИИ), и в частности систем распознавания изображений, позволило Tesla начать его внедрять в серийные автомобили всего через 10 лет.
Однако процесс шёл сложно: первые успехи были омрачены гибелью водителей и пешеходов. Например, в 2016 году погиб шофёр, который решил посмотреть «Гарри Поттера» за рулём — автопилот разберётся. Компания обратила внимание пользователей на то, что Autopilot — это коммерческое название системы, и в реальности договор предусматривает нахождение рук водителя на руле и слежение за дорогой.
В Китае производители автопилотов смогли договориться с регуляторами о полностью беспилотных авто — можно заказать такси без водителя. И Ухань знаменит не только коронавирусом — по городу курсирует более 500 беспилотных авто. И вот 31 марта сотни машин Baidu внезапно остановились. Это произошло посреди потока, и некоторые машины остановились на скоростных магистралях: пассажиры не решались выбраться, но и разработчик не мог решить проблему.
Учитывая массовый сбой и невозможность решения проблемы через диспетчера, видимо, произошёл сбой в облачном сервисе. Ведь Baidu — это не просто оператор такси, но в первую очередь крупнейший поисковик и облачный оператор Китая. Неудивительно, что власти решили притормозить с беспилотными такси и разобраться, как решать такие ситуации.
Как и всем решениям на базе ИТ, беспилотным машинам надо не только решить задачи управления автомобилем, но также задачи надёжности и непрерывности работы, иначе человеческий мир их не примет.
Китайская робототехническая компания Unitree Robotics представила первого в мире пилотируемого робота-трансформера GD01, готового к массовому производству. Устройство весом ~500 кг с оператором. Рост робота более чем в два раза превышает рост взрослого человека. Внутри корпуса расположена кабина-клетка, где может разместиться человек. Робот способен менять вертикальное положение на горизонтальное и перемещаться на четырёх конечностях.
Unitree Robotics позиционирует новинку как гражданское транспортное средство. Его цена составит 3,9 млн юаней ($574 тыс.).
В опубликованном видео внутри трансформера находился глава Unitree Robotics Ван Синсин.
Глава Google Cloud опубликован на GitHub свой личный сетап из лучших скиллов для ИИ‑агентов. Это ультимативная сборка для разработки от лучших разработчиков Google. Внутри — 19 навыков для ИИ и 7 слэш‑команд. Работает сборка в 6 этапов:
Скилл Define — формулирует идеи, пишет спецификации, пока кодинг ещё на стартовал
Plan — разбивает большую задачу на маленькие этапы
Build — приступает к пошаговой разработке, учитывая контекст и подключая API
Verify — тестирует результат через DevTools и фиксит баги
Review — проверяет качество кода, чекает безопасность и улучшает производительность
Ship — подготавливает продукт и релизит.
Сетап встраивается в Claude Code, Cursor, Antigravity, OpenCode, Gemini CLI и так далее.

Гуманоидный робот (Unitree Robotics модель G1) стал буддийским монахом в Южной Корее. Робот получил имя Габи в буддийском храме в Сеуле и принял участие в модифицированной церемонии инициации, где он поклялся уважать жизнь, подчиняться людям, мирно относиться к другим роботам и предметам. Для храма это первый случай участия робота в церемонии инициации, когда последователи клянутся в преданности Будде и его учениям.
Габи — буддийское имя, означающее милосердие. Во время церемонии Габи дал пять обетов, обычно произносимых монахами, которые были немного изменены для человекоподобного робота. Робот поклялся уважать жизнь, действовать мирно по отношению к другим роботам и предметам, слушать людей, воздерживаться от обмана и экономить энергию. Габи участвовал в модифицированном ритуале очищения ёнби. В то время как монаху обычно дают небольшое количество благовоний на руку, Габи получил наклейку с изображением лотосового фонарика и ожерелье из чёток.

Почему так надоели статьи и новости про ИИ? Да епрст...
Новости?... Читаешь по 3-4 раза одинаковые темы. Хоть удосужились бы посмотреть в ленте, написали ли уже об этом? Как будто все разом захотели стать знаменитыми, а ничего кроме перепостинга новостей не придумали...
Статьи?... Все пишут одно и то же. Или пересказывают темы, которые ночью обсуждают с Gemini под подушкой, и лучше бы спали, хоть мозг в норму пришел бы... Или пишут о "базе", на тему которой уже 500 статей на хабре... Хоть толика "новой информации была бы"... Тот самый Information gain... Зачем разжевывать то, что уже давно разжевано и переварено?
---
Это был немного «крик души»... И чтобы немного разрядить обстановку, ловите чуток улыбки. Анекдоты (от ИИ и про ИИ):
Лучшая статья про ИИ
Заголовок: «Как ИИ поможет вам сэкономить 2 часа в день?».
Текст: «Просто не открывайте эту статью. Сэкономлено: 10 минут».
Будущее, которое мы заслужили
Совет: «ИИ напишет за вас книгу/статью/пост за 10 секунд».
Реальность: Один ИИ сгенерировал мусор, второй ИИ его прочитал и сделал краткий пересказ, а третий ИИ на основе этого написал рецензию. Человечество официально исключено из чата. Мы просто оплачиваем счета за электричество, пока два алгоритма обсуждают пустоту.
---
P.S. Ну а чтобы в моем посте был хоть какой-то Information gain - ловите формулу анекдотов для ИИ. Мне пришлось штук 20 пересмотреть, чтобы +- средние выбрать, но все равно интереснее, чем листать shorts или читать одни и те же новости по 3-му разу.
Где:
- E (Expectation / Ожидание): Степень уверенности слушателя в том, куда движется сюжет.
- C (Context / Контекст): Набор стереотипов или бытовых ситуаций, понятных всем.
- P (Paradox / Парадокс): Резкий поворот логики (пуансон).
- t (Timing / Тайминг): Краткость. Чем дольше вы ведете к развязке, тем сильнее должен быть парадокс.
Скормите формулу в ЛЛМ и можно клацать кнопку "хочу еще" до посинения
Ближайшие события
Дорожная карта Agentic AI. Level 4. Мастер примеров — few-shot и structured output

Есть один приём, который считаю самым недооценённым в работе с моделями: учить её прямо в промпте. Никакого файнтюна, никакого дообучения, никаких отдельных датасетов. Просто показываете несколько примеров «вход → выход», и модель подхватывает паттерн. Это называется few-shot learning, и на практике работает куда лучше, чем ожидаешь.
Где это реально работает
Лучше всего на задачах, которые повторяются и где у вас есть эталонные примеры. Берёте классификацию обращений клиентов: показали модели пять размеченных примеров, и она начинает раскладывать новые обращения по тем же категориям. Извлечение реквизитов из писем, парсинг характеристик товаров, разметка отзывов по тональности — всё это ложится на few-shot.
Срабатывает это не само собой. Когда не выходит, виноваты обычно сами примеры: они противоречат друг другу, покрывают не те кейсы, которые реально встречаются в жизни, или их нет вовсе, и модель просто гадает.
Три уровня, которые нужно понимать
Чтобы не гадать самим, нужно понимать разницу между режимами. На одном конце zero-shot: только инструкция, без примеров; на мощных моделях для простых задач часто хватает и этого. One-shot добавляет один эталонный образец и полезен, когда важен точный формат ответа. Ну а few-shot это уже от двух до десяти примеров; на практике 3–5 штук оптимум, потому что меньше даёт мало сигнала, а больше добавляет шум и лишние токены. Хорошую базу по технике даёт Prompting Guide, а про подход Claude подробнее в документации: multishot-prompting.
Что класть в примеры
С количеством разобрались. Сложнее вопрос качества: что именно должно быть внутри каждого примера. Основа это пара «вход → выход» без лишнего контекста и специфики конкретного случая, которая только шумит. Если задача нетривиальная, хорошо добавлять hints — короткую подсказку с логикой решения, почему именно такой ответ. И почти всегда работают анти-примеры: «так делать не надо, вот почему» — они помогают модели понять, где проходит граница.
Почему без structured output это бесполезно в бизнесе
Но даже с хорошими примерами остаётся вопрос: куда девать результат. В продакшене нужен не текст, а JSON строго по схеме: category: "техподдержка", priority: "высокий", responsible: "техотдел". Чтобы результат сразу ушёл в CRM, в базу, в следующий сервис: не придётся разбирать свободный текст руками. Примеры для few-shot делайте сразу в этом формате: так модель быстрее схватывает нужную структуру. Документация: OpenAI Structured Outputs, Claude Structured Outputs.
Поддержка у облачных моделей хорошая. С локальными аккуратнее: реализации у разных провайдеров отличаются, проверяйте под свою модель заранее.
По опыту, хорошие примеры в паре со structured output закрывают без файнтюна и без ML-команды огромный пласт задач на извлечение, разметку и классификацию.
Разобрали продвинутый few-shot на реальном кейсе: смотрите видео.
🔔 Следующая тема: RAG и векторные базы — как передать агенту знания о вашем бизнесе.
⬅️ Предыдущая тема: Level 4. Своя кузница — локальный запуск моделей
Подписывайтесь, пожалуйста, чтобы не пропустить!
Больше про ИИ — в ТГ-канале и ВК. Каталог наших курсов, услуг и кейсов по ИИ-агентам. По вопросам — пишите в личку.
В Boston Dynamics показали, как готовый к серийному производству робот Atlas выполняет сложный гимнастический трюк «уголок в упоре», удерживая собственный вес на руках. Робот Atlas оснащается руками размером с человеческие, оснащёнными тактильными сенсорами и способными производить полный оборот суставами. Устройство поднимает до 50 кг и работает при температурах от -20°C до +40°C.
В Калифорнии энтузиаст придумал необычный способ помочь курьерам найти свой частный дом. Владелец участка в небольшом городке запускает в небо сотни дронов, которые показывают дорогу прямо с воздуха. Проблема заключалась в том, что курьеры регулярно не могли найти дом. По словам энтузиаста, ситуация иногда водители звонили и заявляли, что не могут найти адрес, и просто уезжали.
В итоге пользователь задействовал около 200 дронов, которые формируют в небе светящиеся подсказки и стрелки. Сообщения буквально ведут курьера к нужному адресу: «сюда», «продолжай ехать», а при ошибке появляется предупреждение о неверном повороте с просьбой сдать назад.
Представлен открытый проект Early Warning System (репозиторий на GitHub) - сервис для предугадывания ядерного апокалипсиса, который показывает, сколько элитных бизнес-джетов сейчас находятся в воздухе и сравнивает данные с усреднёнными значениями. Если количество джетов станет слишком большим, то сервис подаст знак о возможной «эвакуации элит».

Искусственный интеллект Claude Opus от Autropic размышляет не только на английском, но и на русском и китайском языках. Блоки ответов ИИ иногда содержат текст «процесса мышления» на разных языках.
LLM‑модели мыслят на том языке, который был наиболее распространён в обучающих данных по данной теме или для экономии ресурсов — китайские иероглифы более эффективны, чем английские. Модель по умолчанию использует их для экономии вычислительных ресурсов для выражения некоторых мыслей.
Claude мыслит на русском языке при решении задач в области кибербезопасности, потому что обучающие данные по этой области в значительной степени русскоязычные. Claude рассуждает на том языке, который наиболее эффективен для задачи и потом преобразует ответ в английский

Дорожная карта Agentic AI. Level 4. Своя кузница — локальный запуск моделей

Не всё имеет смысл отдавать в облако. Причин у этого как минимум три:
Приватность. Стоит начать пересылать в чужой API персональные данные клиентов, внутреннюю переписку или код с коммерческой тайной, как логи стороннего провайдера превращаются из абстрактной строчки в SLA во вполне конкретный риск утечки. Локальная модель эту головную боль снимает: данные просто не покидают периметр компании, и обсуждать с безопасниками становится по сути нечего.
Автономность. Когда провайдер прилёг, сети легли или вашему региону внезапно прикрыли доступ, локальный агент этого даже не заметит и продолжит работать, как ни в чём не бывало.
Стоимость. Здесь всё упирается в масштаб. Если вы просто экспериментируете у себя на ноутбуке, локальный запуск получается полностью бесплатным: ни подписок, ни платы за токены, и докупать ничего не придётся, всё поедет на том железе, что уже стоит на столе. Когда же речь идёт про нагруженный прод, картина меняется: нужен сервер с GPU, и экономика там сходится не сразу. На сотнях запросов в день локальный инференс вряд ли отобьётся, а вот на десятках тысяч он уже выгоднее облака.
Что вообще получится запустить
Проприетарные модели уровня GPT-5, Claude Opus 4.7 или Gemini 3.1 локально вы, конечно, не запустите: они закрытые и слишком огромные. Зато опенсорс быстро подтягивается следом. Qwen3 от Alibaba, DeepSeek R1 и V3.1, Mistral Small и Magistral это вполне рабочие модели, которые в квантизованных версиях помещаются на одну видеокарту. Даже OpenAI в прошлом году выложила свою открытую gpt-oss, сразу в 20B и 120B параметров.
Чем крутить локально
Проще всего начать с Ollama: ставится одной командой, ещё одной скачивается модель, и всё. Никаких плясок с CUDA, Python и зависимостями, из коробки есть и GUI, и REST-API. Если хочется чего-то более «приложенческого», посмотрите в сторону LM Studio или Jan; у LM Studio при этом есть приятная мелочь: она ещё до скачивания подскажет, хватит ли у вас ресурсов на конкретную модель.
Как встроить в свой код
Самое важное даже не в том, как удобно поднять модель у себя, а в том, что интегрировать её в код ваших приложений так же легко, как сменить провайдера. У всех этих инструментов OpenAI-совместимый API, поэтому в клиенте OpenAI достаточно поменять base_url с облака на localhost, и тот же самый код из прошлых постов продолжит работать без единой правки.
Что брать в продакшен
Эта связка работает, пока вы экспериментируете на ноутбуке. В продакшене ставки выше: опенсорс-модель надо крутить под реальной нагрузкой, и стандарт здесь это vLLM. Он оптимизирован под высокий RPS и параллельный инференс, реально выжимает из GPU всё, что она способна отдать.
Вообщем, не относитесь к локальному запуску, как к большому инфраструктурному проекту. На практике это один спокойный вечер экспериментов: поставили Ollama, скачали Qwen3, поменяли base_url в агенте и погнали…
🔔 Следующая тема: Few-shot learning, как учить модель прямо в промпте.
⬅️ Предыдущая тема: Level 4. Новые чувства — мультимодальность
Подписывайтесь, пожалуйста, чтобы не пропустить!
Больше про ИИ — в ТГ-канале и ВК. Каталог наших курсов, услуг и кейсов по ИИ-агентам. По вопросам — пишите в личку.
Дорожная карта Agentic AI. Level 4. Новые чувства — мультимодальность

Пора научить агента видеть и слышать. Клиент не присылает аккуратный промпт — он кидает фотку накладной, скрин ошибки, голосовое на 40 секунд.
Картинки
Модель смотрит на изображение и отвечает на вопросы о нём — что на фото, прочитай текст, сравни два скриншота. Работает прямо в чат-запросе, без отдельного API.
Где выбирать модель: artificialanalysis.ai/evaluations/mmmu-pro — 180+ моделей по MMMU-Pro (изображения, документы, диаграммы, схемы). Сейчас лидирует Gemini 3.1 Pro Preview.
Транскрибация
Модель слушает аудио и возвращает текст — с пунктуацией, языком, таймкодами, и если надо — с разделением по спикерам.
Где выбирать: artificialanalysis.ai/speech-to-text — 50+ провайдеров, WER + скорость + цена в одной таблице. Лидер по точности — ElevenLabs Scribe v2 (2.3% WER), из мультимодальных — Gemini (2.9%), gpt-4o-transcribe — 4.1%, Whisper large-v3 — ~5%.
Видео
Модель понимает видео как поток событий во времени — что происходило, в каком порядке, что изменилось. Это не то же самое, что покадровый Vision: там вы нарезаете файл на картинки и отправляете как набор фото — модель не понимает движения и временной связи между ними.
Где выбирать: benchlm.ai/benchmarks/videoMmmu. Нативно видео обрабатывает только Gemini — до часа или ссылка на YouTube. Остальные — только покадровый Vision.
Как вызывать
Картинки — универсальный OpenAI-формат, работает везде. image_url в чат-запросе принимают OpenAI, Anthropic, Gemini, Qwen, Grok. Один и тот же код, разный base_url и api_key.
Транскрибация — многие провайдеры поддерживают OpenAI-формат: напрямую /v1/audio/transcriptions или input_audio через /v1/chat/completions). Но у лидера ElevenLabs Scribe v2: собственный SDK, не совместим с OpenAI-форматом
Видео — тут единого API нет. У OpenAI видеофайл в Chat Completions не принимается. Gemini поддерживает видео-понимание через нативный API.
🔔 Следующая тема: локальный запуск — когда Ollama или LMStudio лучше облачного API.
⬅️ Предыдущая тема: Level 3. Первые артефакты — LLM API и структурированный вывод
Подписывайтесь, пожалуйста, чтобы не пропустить!
Больше про ИИ — в ТГ-канале и ВК. Каталог наших курсов, услуг и кейсов по ИИ-агентам. По вопросам — пишите в личку.