Все потоки
Поиск
Написать публикацию
Обновить
1152.54

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

Менеджер Stripe Кэмерон Маттис простым способом отфильтровывает ИИ-рекрутеров, он добавил в раздел «О себе» в LinkedIn простой промпт для нейросетей с просьбой вставить в сообщение рецепт испанского пудинга. Это работает, ему присылают рецепты в предложениях о работе.

Теги:
+4
Комментарии0

Составили рекомендации, как безопасно разрабатывать ИИ‑агентов и мультиагентные системы

Команда Yandex Cloud опубликовала руководство по снижению рисков при разработке и внедрении агентов на базе LLM. Мы обобщили опыт создания агентов для ML, Security и других сервисов Яндекса, которые уже используют агентную систему и генеративные технологии компании.

Результатом этой работы стал подход к разработке модели угроз при внедрении, а также методы защиты для ключевых компонентов:

  • самих генеративных моделей,

  • модулей и баз знаний, которые используются в работе ИИ‑агентов.

Особое внимание мы уделили безопасности данных и предотвращению рисков, возникающих из‑за автономности агентов.

Читать документ

При подготовке рекомендаций мы также учли лучшие практики международных организаций, включая OWASP®, NIST и MITRE ATT&CK®.

Предложенные в документе принципы безопасной разработки используются на всех этапах при создании автономных или взаимодействующих между собой ИИ‑агентов в сервисах Яндекса. Команды безопасности ещё на стадии проектирования изучают будущую архитектуру и проверяет её на безопасность. Затем специалисты тестируют код на возможные уязвимости и проверяют на соответствие стандартам безопасной разработки.

Яндекс также изучает возможные способы атак на нейросети и разрабатывает защиту от потенциальных угроз. Антиробот Яндекса защищает ИИ‑сервисы от злоупотребления и эксплуатации уязвимостей. Сервис Yandex Smart Web Security теперь содержит ML WAF — технологию для защиты от веб‑атак на основе машинного обучения, которая даёт более широкое покрытие векторов атак за счёт сочетания сигнатурного анализа и ML. Центр мониторинга выявляет угрозы и анализирует подозрительную активность в инфраструктуре. Ещё один инструмент для проверки и усиления безопасности ИИ — направление программы Яндекса «Охоты за ошибками», связанное с генеративными нейросетями.

Теги:
+6
Комментарии0

В Рег.облаке запустили облачные серверы с ИИ-ассистентом

В Рег.облаке стало доступно новое локальное решение для запуска и управления языковыми моделями LLM. Облачный сервис разворачивается за несколько минут и работает в изолированном окружении: данные и доступ полностью контролируются пользователем.

Что входит в образ:

  • Ollama — фреймворк для запуска и управления LLM-моделями;

  • Open WebUI — веб-интерфейс для работы через браузер;

  • предустановленные модели Gemma 3, DeepSeek и Grok, с возможностью подключения моделей из Ollama и Hugging Face.

Основные возможности:

  • интеграция через API во внутренние сервисы;

  • подключение документов и баз знаний для контекстных ответов;

  • параллельный запуск и сравнение нескольких моделей;

  • плагины Open WebUI для работы с файлами и данными;

  • работа с конфиденциальной информацией без передачи в публичные сервисы.

ИИ-ассистент доступен в конфигурациях с CPU и GPU. Для работы с несколькими моделями рекомендована конфигурация с NVIDIA A5000 (24 ГБ), 16 vCPU и 64 ГБ RAM. Заказать и протестировать сервер с ИИ-ассистентом можно уже сейчас на сайте Рег.облака.

Теги:
+1
Комментарии0

Альфа-Банк совместно с ИТМО запускает бесплатную программу повышения квалификации для преподавателей

Совместно с Университетом ИТМО (лидером рейтинга вузов по качеству подготовки специалистов в области искусственного интеллекта) разработали программу повышения квалификации для преподавателей вузов. В программе научим работать с искусственным интеллектом, встраивать его в образовательный процесс и смело использовать со студентами.

Что ждёт участников:

  • Курс пройдёт с октября по декабрь (72 академических часа).

  • Вебинары с экспертами (прямые эфиры).

  • Онлайн-консультации для ответов на все интересующие вопросы.

  • Видеоуроки и практика, чтобы изучать темы в удобное время.

  • Финальная защита проектов в Санкт-Петербурге.

  • Удостоверение о повышении квалификации установленного образца.

Если вы преподаватель, то оставляйте заявки по ссылке, чтобы работать с искусственным интеллектом рука об руку ❤️

Вы изучите широкий спектр тем — от общих вопросов и этики ИИ до практических задач и методических особенностей преподавания искусственного интеллекта в вузах.

Записаться можно на один из 3 образовательных треков:

  • Базовый — про введение в возможности ИИ.

  • Средний — про технологии ИИ и их применение.

  • Продвинутый — про преподавание ИИ в университетах.

Больше информации, контакты и форма для заявки на обучение по ссылке ❤️

Теги:
0
Комментарии0

Первая в России конференция про ускорение разработки с помощью ИИ: реальные кейсы, судьба разработчиков и риски спагетти-кода

На Хабре до сих пор спорят про пользу вайбкодинга и вымирание профессии программиста. Тем временем бигтех уже использует AI-агентов, которые берут на себя больше, чем написание кода. В T-Tech они ведут задачи в SDLC и общаются друг с другом без дейликов, а Яндекс и Магнит обучают агентов управлять продуктами без человека. Это не эксперименты, а рабочий продакшн: релизы не откладываются на месяцы, счет идет на дни. 

Мы в Surf собрали на одной площадке тех, кто уже живёт в этой новой реальности: CTO, QA-лидов, техдиров и исследователей из Яндекса, Ozon, Surf, Сбера, T-Tech и других. Они расскажут и покажут всю подноготную своих проектов с ИИ 3 октября, на первой в России конференции по ускорению разработки с ИИ AI Boost 2025 в Москве.

 >> Программа и регистрация <<

О чем расскажут на встрече:

  • Евгений Сатуров, CTO Mobile Surf покажет, как обучить вайбкодингу полсотню разработчиков и при этом не нажить врагов в команде.

  • Александр Поломодов, технический директор T-Tech расскажет, когда автономные ИИ-агенты становятся полноценными участниками SDLC и начинают взаимодействовать друг с другом. Разберём переход от привычных AI-ассистентов вроде Cursor к ИИ-агентам.

  • Мария Лещинская, Head of QA в Surf и кандидат технических наук по ИИ и ML объяснит, как shift-left подход и автогенерация автотестов помогают ускорять delivery и повышать качество продукта.

  • Александр Коренев, руководитель IT-проектов в Банке «Левобережный» поделится кейсом внедрения ИИ в банковские проекты с нуля: от обучения персонала до автоматизации рабочих процессов.

  • Альбина Галлямова, социобиолог из НИУ ВШЭ поделится научной подоплекой: выживут ли «обычные» разработчики в мире, где нейросети берут на себя всё больше задач?

Докладами не ограничимся — собрали экспертов на круглые столы, где обсудим самые горячие вопросы: 

  1. «Внедрение ИИ vs Безопасность»
    Эксперты из Ozon, Сбера, Positive Technologies и Surf обсудят, как сочетать скорость релизов с безопасностью, где прячутся уязвимости AI-решений и зачем компании вводят ограничения на LLM.

  2. «ИИ в продакшн: спасение или новый спагетти-код?»
    Представители Магнита, Яндекса, Surf и Атол расскажут, как нейросети ускоряют релизы, можно ли доверять им архитектуру и сложные задачи и как можно в этих условиях вырасти от джуна до тимлида.

Кому будет полезно:

  • C-level и руководителям разработки — если ищете способы прокачать delivery и эффективность команд.

  • Тимлидам и senior-разработчикам — если хотите разгрузить команду от рутины, улучшить качество кода и внедрить AI-практики в ежедневную работу.

  • Продуктовым и проектным менеджерам — если планируете AI-проекты и хотите понимать, как реалистично оценивать сроки, риски и ресурсы на AI-разработку.

  • ИИ-энтузиастам — если хотите разобраться и перенять лайфхаки по работе с ИИ для себя и своих проектов. И неважно, джун вы или сеньор. 

Формат и участие

Конференция пройдет 3 октября (пятница) в Москве, локация — ДК Рассвет. Начало в 12:00. Вас ждет 9 часов контента, нетворкинга и новых идей для своих проектов. А еще — возможность получить бесплатную консультацию с CTO Surf по внедрению ИИ-процессов в своих проектах.

По ссылке — регистрация и подробная программа.

🔥 Дарим специальный промокод для хабровчан со скидкой 2000 руб.: surfhabr

До встречи ;) 

Теги:
+10
Комментарии0

🚀 Объём корпоративных данных растёт на десятки процентов в год, а специалистов всё так же не хватает. В статье для VC.RU мы вместе с Екатериной Ризановой рассказали, как ИИ-агенты помогают решать эту проблему: берут на себя рутинные задачи в хранилищах данных и BI-системах, ускоряют работу команд и экономят компаниям миллионы рублей в год.

ИИ-агент — это не чат-бот. Он сам выполняет действия: анализирует код витрин, строит lineage, генерирует SQL, находит инсайты и помогает сотрудникам сосредоточиться на действительно важных задачах.

👉 Делюсь материалом: https://vc.ru/ai/2233616-ii-agent-dlya-rabotyi-s-bolshimi-dannymi

Теги:
+3
Комментарии0

Как вайб-кодить с вайбом, а не с техдолгом и багами 👨‍💻✨

Разберемся в этом на вебинаре с нашим техническим экспертом Сашей Константиновым. Будет полезно всем, кто работает с кодом и данными — вы узнаете, как с помощью AI писать код быстрее и не проседать при этом в качестве.

Поговорим о том, как:

  • Научить IDE кодить в вашем стиле, предсказуемо и по нужным стандартам.

  • Подключить языковую модель к VS Code. Рассмотрим все на примере LLM из Evolution Foundation Models.

  • Мониторить безопасность и качество кода в SonarQube.

📅 Когда? 30 сентября в 11 по мск.

📍 Где? Онлайн — вам осталось только зарегистрироваться →

Теги:
-1
Комментарии0

Эксперты сообщили, что текущая ситуация на рынке ИИ-технологий напоминает финансовую пирамиду. Например, OpenAI платит миллиарды долларов Oracle, которая платит Nvidia, которая инвестирует в OpenAI. В итоге OpenAI покупает мощности Oracle. Акции Oracle дорожают, и компания закупает чипы у Nvidia. Акции Nvidia дорожают, и компания инвестирует в OpenAI.

«Жизненный цикл» с зависимостями. Например, Nvidia поставляет Oracle чипы, а та предоставляет кредиты на облачные услуги. OpenAI нужны мощности, а Nvidia — чтобы покупались её чипы.

Теги:
+2
Комментарии1

«Найди то, не знаю что» среди миллиарда сущностей 😱

Примерно так звучат задачи специалистов, которые работают с LLM. В новом выпуске нашего подкаста «Кофе-брейк» развеиваем миф о том, что ИИ отберёт у всех нас работу (спойлер: не у всех), и обсуждаем, как вообще устроен поиск по ключевым словам. А помогает нам в этом Денис Шавейников — руководитель команды поиска VK.

Хватайте капучино и включайте выпуск ☕️

Теги:
+12
Комментарии0

3 неочевидных способа сэкономить на инференсе ML-модели в облаке кроме автоскейлинга 💸💸💸

Привет! Сегодня хотим поделиться тремя полезными способами сэкономить на инференсе, которые работают в облаке, причем, не только у нас (что? да!).  

А то ведь как бывает: запустишь свою крутую LLM-ку в продакшен, а счет прилетает такой, что хочется отключить обратно. Горизонтальный скейлинг не всегда выход. Но дешевле — не значит менее производительно. Мы приведем алгоритмы для сервиса Evolution ML Inference, но их можно адаптировать для любого провайдера. 

Способ 1. Использовать Sleep Mode vLLM 🔧

Способ работает только для языковых моделей (LLM), таких как Qwen, LLaMA, Mistral и других, запускаемых через vLLM. С диффузионными моделями, CV и временными рядами фокус не прокатит. Sleep Mode временно выгружает веса модели из GPU в RAM, освобождая до 90% видеопамяти. А раз GPU-ресурс не используется, то и не тарифицируется. «Разбудить» модель можно за секунды и без полной перезагрузки. 

Что делать: 

1. Запустите модель в ML Inference с runtime vLLM.

2. Включите режим разработки:

   VLLM_SERVER_DEV_MODE=1

3. Добавьте флаг:

   --enable-sleep-mode   

4. Управляйте через HTTP:

   ⦁ POST /sleep?level=1 — выгрузить веса, сохранить возможность быстрого запуска.

   ⦁ POST /wake_up — вернуть модель в активное состояние.

Когда применять: 

  • В сценариях с неравномерной нагрузкой (например, днём активность, ночью — нет).

  • Между итерациями RLHF, когда нужно освободить GPU. 

Способ 2. Serverless + Scale to Zero 🔧

Способ подходит вообще для всего. Суть в том, что контейнер с моделью останавливается при отсутствии запросов, освобождая все выделенные ресурсы (GPU, RAM, CPU). Кеш модели сохраняется, но тоже не тарифицируется в период простоя — PROFIT! При поступлении нового запроса модель запускается из кеша — и тут, мы, конечно, имеем проблему с задержкой при «холодном старте». Но пара секунд ожидания экономит нам сотни тысяч.

Что делать: 

1. При создании инференса в ML Inference:

   ⦁ Установите min_replicas = 0.

   ⦁ Выберите тип масштабирования: RPS или Concurrency.

2. Убедитесь, что Idle-таймаут = 40 сек.

Когда применять: 

  • Для MVP, демо, внутренних API.

  • Сценариев с нерегулярной нагрузкой (например, 100 запросов в день).

  • Моделей, где допустима небольшая задержка при первом запросе.

Способ 3. Time Slicing GPU 🔧

Способ работает в рамках Managed Kubernetes (MK8s), при условии, что в кластере создана группа узлов с GPU NVIDIA Tesla V100. Суть в том, что одна физическая GPU делится между несколькими подами (например, 5 подов по 1 GPU): каждый получает свою долю времени, как если бы у него была выделенная карта. 

Что делать: 

1. Создайте кластер Managed Kubernetes с узлом, где:

   ⦁ GPU: NVIDIA Tesla V100.

   ⦁ Количество GPU: 1.

2. Настройте Time-Slicing. Создайте ConfigMap:

   apiVersion: v1

   kind: ConfigMap

   metadata:

     name: time-slicing-config

     namespace: gpu-operator

   data:

     tesla-v100: |-

       version: v1

       sharing:

         timeSlicing:

           resources:

             - name: nvidia.com/gpu

               replicas: 5

   Примените: kubectl apply -f cloudru-time-slicing.yaml

3. Установите NVIDIA GPU Operator. В Личном кабинете Cloud.ru:

   ⦁ Перейдите в кластер → Плагины → Добавить.

   ⦁ Выберите NVIDIA GPU Operator.

   ⦁ В расширенной конфигурации укажите:

     devicePlugin:

       config:

         name: time-slicing-config

         default: tesla-v100

4. Проверьте работу. Запустите Deployment с 5 репликами:

   resources:

     limits:

       nvidia.com/gpu: 1

Все 5 подов должны перейти в статус Running.

Когда применять: 

  • Для тестовых и демо-сценариев, стартапов или MVP.

  • Для низконагруженных задач — инференс небольших моделей, дообучение, RLHF.

  • Для команд разработки, чтобы работать в одном кластере и делить ресурсы.

А какие нестандартные методы оптимизации бюджета используете вы? Собираем коллекцию советов для экономных в комментариях!

Теги:
+2
Комментарии0

MCP архитектура как развитие ручного подхода в LLM

Когда вы открываете ChatGPT и вставляете туда кучу текста — что реально происходит?
Всё складывается в один длинный «бутерброд»: данные, инструкции, системный промпт, даже куски схемы в Markdown. Никакого порядка. Это как если бы у вас в кодовой базе был один файл main.py, где и роуты, и бизнес-логика, и SQL-запросы.

Я хочу описать идею MCP кратко, поскольку в самой доке она не описана. А может быть даже и не закладывалась туда. Но очень похоже, что такая архитектура хорошо работает исходя из более фундаментальных принципов, чем просто разделение

Как это выглядит у ChatGPT

На схеме выше видно:

  • Есть Line Edit — пользователь копипастит сырые данные.

  • Есть Плагин — иногда он что-то подмешивает.

  • Всё это сливается в один большой Склеенный промпт, который уходит в LLM.

Мешанина как она есть

Как это делает MCP?

MCP приходит и говорит: «ребята, давайте хоть модули разнесём».

  • System Prompt — отдельная часть, где живёт логика «как правильно жить» для модели.

  • Instruction Layer — патчи и локальные корректировки.

  • Schema Registry — отдельный каталог, который описывает структуру данных (таблицы, поля, форматы).

  • Data Adapter — слой, который достаёт данные у провайдера строго по схеме.

  • Всё это связывает MCP хост, который собирает финальный запрос к LLM, который зачастую представляет собой Lang Chain

Итог: модель получает запрос не как «мусорный мешок», а как структурированный pipeline.

Почему это важно

  • Прозрачность. Можно отследить, какая часть отвечает за что.

  • Контроль. Можно менять системный промпт без страха поломать данные.

  • Расширяемость. Хочешь новый источник данных? Добавь адаптер, а не переписывай всё.

  • Предсказуемость. Поведение модели становится ближе к детерминированному.

Простая метафора

  • ChatGPT — это когда у вас «final_final_v3.docx» и все правят его параллельно.

  • MCP — это когда у вас git с ветками, пайплайнами и CI с CQRS архитектурой (не шутка), читай выше

Теги:
+1
Комментарии0

ImageSorcery 06 - MVP

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и ~100 ежедневных установок с PyPi.

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery
ImageSorcery 03 - шаг за шагом: PoC, Initial commit
ImageSorcery 04 - README.MD
ImageSorcery 05 - автотесты; просто покажи ему пример

По результатам предыдущих приседаний с ИИ у нас на руках прототипы detect, crop и get_metainfo - функций на python, которые понадобятся ИИ агенту чтобы выполнить задачу вроде “вырежи здание на этом фото”. Также у нас уже есть git репозиторий с работающим MCP сервером подключенным в Cline. С полным покрытием одного единственного tool hello_world тестами формата e2e на pytest. И линтер rufus.

Приступаю к тулзам. По одной за шаг. С покрытием тестами и актуализацией README. От самой простой get_metainfo к самой сложной detect. Благо есть работающие реализации от PoC, которые нужны были как пример и подстраховка.

“Изучи @README.MD и следуй правилам работы с кодом от туда. Прочитай код hello_world tool и тесты на него. Прочитай код прототипа get_metainfo/crop/detect. Реализуй соответствующий tool. Напиши тесты. Актуализируй README. Не завершай задачу пока все тесты не пройдут, а также линтер.

С реализацией проблем конечно уже не было, вот с тестами detect снова пришлось повозиться. Лентяй Gemini flash решил, что если detect tool запускается и возвращает хоть что-то - этого уже достаточно. Пришлось гонять его и в хвост и в гриву чтобы были написаны позитивные и негативные сценарии и прочие едж кейсы.

Каждый отдельный тул разумеется коммитил.

Где-то в процессе обнаружил что тесты на объявление tool могут быть также достаточно подробными. И самое главное - результаты crop (сохранение файла) оказывается есть в /tmp/pytest/.  Это означало что я могу проверять тесты, которые работают с изображениями, а не слепо доверять их коду и статусу passed. Это меня в будущем много раз выручит. Например, когда при реализации blur для теста генерировался полностью черный квадрат и после выполнения blur контрольный пиксель проверялся на соответствие цвета заблюренному черному - черному 🤦. С точки зрения алгоритма всё идеально - не прикопаешься 😅 А я глядя на два одинаковых черных квадрата ржал в голосину. Пришлось заставить его тестировать на шахматке.

blur области поверх шахматки
blur области поверх шахматки

Шаг выполнен ✅

Теперь у меня был MCP сервер, который позволял подключенному к нему MCP клиенту вроде Cline выполнить заветное “вырежи с этого фото собаку”. Был ведь? ...

В дев сборке всё работало. Но если я хотел публиковать это как MVP, мне нужно было убедиться, что те, кто найдут его на просторах гитхаба, смогут им воспользоваться. В будущем мне понадобится опубликовать пакет на pypi, но на данном этапе нужно было убедиться что хотя бы через клонирование репозитория всё заведётся.

Я удалил MCP из Cline, склонировал репу в новую директорию и попросил Cline доустановить, подключить и проверить. 

🫠 Разумеется ничего не заработало в этом моем стейдже.

Оказывается модели Ultralytics не качаются по неведомой мне причине, когда MCP запущен как процесс(?). Пока я писал прототипы, и запускал detect как отдельный python скрипт, а не как модуль в составе сервера, все нужные мне модели скачались и могли переиспользоваться в последующем. А чистая установка доступа к ним не имела и всё падало.

Такую нетривиальную проблему конечно же не смогли решить никакие ИИ, но день плотного дебага и глубоких обсуждений с Gemini и параллельно Claude (на всякий случай. По факту ничего такого, чего не знал Gemini он не сказал) привёл меня к реализации –post-installation режима и архитектурному решению с выделением отдельно от tools директории scripts, куда попали скрипты установки и скачивания моделей.

Теперь ImageSorcery была готова к публикации как MVP!

P.S. если кто-то знает как обойти проблему со скачиванием моделей в рантайме - дайте знать. Я бы очень хотел найти альтернативные решения.

Теги:
+3
Комментарии0

Вышла нейросеть для инженеров, которая умеет генерить сложные 3D-модели в CAD. Просто закидываете чертёж и получаете готовую модель детали, которую можно отредактировать промптом или задействовать в AutoCAD для ручного редактирования.

Теги:
+3
Комментарии0

Ближайшие события

Андрей Бурков — канадский специалист по машинному обучению из Квебека. Он руководил командами машинного обучения в Gartner и TalentNeuron, много лет возится с обработкой естественного языка, а прославился «The Hundred-Page Machine Learning Book», компактным учебником, который разошёлся по университетским курсам. В 2024—2025 годах он выпустил продолжение — «The Hundred-Page Language Models Book», где объясняет путь от простых счётных моделей и свёрточным нейросетям к трансформерам и БЯМ.

Впрочем, Бурков не просто повис где-то в сухой академии и написании учебников — он активно ведёт микроблог в X. Тон его микроблога и интервью легко узнать: он любит сбивать хайп и говорить про реальные ограничения моделей. Давайте хотя бы посмотрим, как озаглавлены его недавние беседы: «БЯМ — полезные лжецы» и «Вокруг БЯМ и агентов слишком много хайпа». По его мнению, большие языковые модели полезны, но склонны обещать больше, чем могут, а агенты без аккуратной инженерии разваливаются на форматировании, таксономиях и хрупких пайплайнах.

Аналогично скептичен и недавний твит Буркова. Андрей язвительно приводит следующее остроумное наблюдение: «БЯМ дообучили врать почти во всех ответах по написанию кода». Исследователь обратил внимание, что когда генерируется ответ, сначала модель торжественно выдаёт в тексте «я реализовал такую-то фичу», а сам код рождается позже — токен за токеном. По сути, БЯМ врёт, она ещё не написала никакого кода.

Однако в комментарии пришёл не менее маститый исследователь искусственного интеллекта Андрей Карпатый со своей фирменной иронией. Карпатый — один из одиннадцати основателей OpenAI, он возглавлял компьютерное зрение в Tesla и просто преподавал культовый курс CS231n.

Карпатый с юмором пишет: «Код был написан на слоях 22–30 и хранится в value-активациях, ты просто не можешь его прочитать. Мне кажется, тебе нужно извиниться перед БЯМ».

На самом деле шутка не на пустом месте: в трансформерах мысли о продолжении действительно заранее складываются в активациях, а суммарная память шага течёт по так называемому residual stream. Модули внимания и многослойные перцептроны читают из него и записывают обратно векторы, которые затем превращаются в следующий токен. До того как вывести первую строку функции, модель уже набрала внутренний, так сказать, замысел будущего кода, хотя это не готовый текст, а распределённые признаки будущего ответа.

Теги:
0
Комментарии0

Упрашивал ChatGPT нарисовать мне картинку с человеком. Ни в какую! Отказывается!

Сегодня с помощью ChatGPT генерировал картинку к Норм ЦРМ.

Я добавил мета-теги, заголовки на двух языках. Ну и картинку, которая будет подтягиваться, когда кто-то будет делиться ссылкой на проект.

Попросил нарисовать фрилансера-одиночку за уютным домашним рабочим местом. И тут — хопа — отказ. Мол, это не соответствует нашим политикам.

Тогда попросил нарисовать человека, лица которого мы не видим. Просто фигуру. Снова отказ.

Затем попросил нарисовать антропоморфного кота. И тоже нельзя.

Я удивился. Раньше никаких подобных ограничений не было. В итоге попросил сгенерировать картинку без людей, а сам пошёл разбираться, какая нейронка мне теперь подойдёт для этих целей вместо ChatGPT.

Если что, использую пятую версию с подпиской Plus.

——
Апдейт:

В комментариях пишут, что никаких ограничений нет.

Я попробовал сгенерировать в новом диалоге — и тоже ограничений не оказалось.

А вот внутри папки с проектом — не разрешает по какой-то причине.

Буду разбираться дальше.

Теги:
+2
Комментарии4

Организация Model Evaluation & Threat Research https://metr.org/ опубликовала статью AI Ability to Complete Long Tasks https://arxiv.org/pdf/2503.14499

В этой статье предлагается новая метрика для оценки возможностей искусственного интеллекта — «временной горизонт выполнения задач». Это продолжительность задач (измеренная во времени, которое тратит на их выполнение человек-эксперт), которые ИИ-агент может выполнить автономно с заданной вероятностью успеха, например, 50%. Авторы измерили этот показатель, протестировав 13 передовых моделей (на момент проведения исследований это были от GPT-2 до Claude 3.7 Sonnet) на наборе из 170 реалистичных задач из области разработки ПО и исследований.

Ключевой вывод заключается в том, что 50%-ный временной горизонт моделей экспоненциально растет, удваиваясь примерно каждые семь месяцев. Это означает, что современные модели уже способны самостоятельно справляться с задачами, на которые у человека уходит около 50 минут. Прогресс движется за счет улучшения логического мышления, использования инструментов и большей надежности моделей, хотя они по-прежнему хуже справляются с неструктурированными, «грязными» задачами, требующими неявного контекста.

Если эта тенденция сохранится, экстраполяция предсказывает, что ИИ достигнет горизонта в один месяц (167 рабочих часов) в период между концом 2028 и началом 2031 года. Это указывает на потенциальную способность автоматизировать сложную интеллектуальную работу в обозримом будущем, что подчеркивает необходимость ответственного управления и развития ИИ. Авторы отмечают, что их выводы могут быть ограничены внешней валидностью, так как использованные задачи систематически отличаются от реальной работы.

Теги:
-2
Комментарии0

Зачем работать напрямую с клиентом, когда можно просто выкинуть запрос на MCP и дать нейросети подумать? 😎

Расскажу кейс Vivo Chat. Проверка статуса заказов (замените на вашу сущность). Давайте по порядку

Клиент идёт к хосту, чтобы получить доступ к MCP

Итак, наш клиент — это тот, кто первым инициирует запрос. Всё начинается с того, что клиент заходит в свою систему, которая подключена к MCP-серверу через хост. Хост выполняет функцию посредника, направляя запросы и получая ответы от разных компонентов системы.

Клиент: «Привет, хост, мне нужно проверить заказ, и я хочу понять, что из инструментария MCP мне пригодится. Покажи мне, пожалуйста, список доступных инструментов и подсказок, чтобы я мог выбрать что-то нужное для этого запроса.»
Хост (перехватывает запрос и направляет его к серверу MCP): «Окей, сейчас все передам.»

Хост запрашивает у MCP список инструментов (Tools) и подсказок (Prompts)

Хост теперь идёт к MCP-серверу. Этот сервер знает всё, что связано с доступом к данным и обработкой запросов. В MCP сервере хранятся все инструменты (tools) и подсказки (prompts) для выполнения нужных действий.

Хост: «MCP, подкинь мне список доступных tools и prompts для запроса клиента.»
MCP-сервер: «Вот, держи, вот все инструменты и подсказки, которые у нас есть. Для каждого метода я также подготовил параметры, которые можно подставить.»

LLM, любимая нейросеть, выбирает метод из списка

Теперь, когда хост получил список инструментов и подсказок, он передает всё это в LLM (нейросеть), которая и будет решать, какой метод нужно использовать для конкретного запроса.

Хост: «LLM, тебе пришёл запрос от клиента. Вот список инструментов и промптов. Тебе нужно выбрать подходящий метод для выполнения запроса и подготовить все нужные параметры для этого метода.»
LLM: «Хорошо, я выбираю метод X из списка инструментов, и вот какие параметры мне нужны для этого метода. Я знаю, что нужно сделать, и использую соответствующие промпты, чтобы точно понять, что клиент хочет.»

LLM передает параметры и вызывает метод на MCP

Теперь, когда LLM выбрала нужный метод и подготовила параметры, она отправляет всё это хосту, который, в свою очередь, передает запрос обратно в MCP-сервер для выполнения.

LLM: «Вот всё, что мне нужно: метод X и параметры для выполнения. Передавай это на MCP.»
Хост: «Принято, иду к MCP.»

Хост направляется к MCP-серверу и передает запрос на выполнение метода.

MCP выполняет метод и возвращает результат

MCP-сервер теперь, получив все необходимые данные, выполняет метод и обрабатывает запрос. Всё, что нужно, уже у него под рукой: инструменты, параметры, контекст. Вся обработка происходит внутри MCP, и сервер возвращает результат хосту.

MCP-сервер: «Я выполнил метод X с этими параметрами. Вот результат: (ответ).»

Ответ от LLM клиенту

Теперь, когда MCP выполнил метод, хост получает ответ и передает его обратно в LLM, которая уже анализирует результат, добавляет необходимые детали (например, форматирует или уточняет ответ) и отдает всё клиенту.

Хост: «Вот ответ от MCP через LLM: (ответ). Всё готово!»
LLM: «Отлично, теперь я передаю результат обратно клиенту.»
Клиент: «Вау, всё так быстро! Спасибо, LLM!»

Итог

На мой взгляд в бизнес-приложениях — это самый частый кейс, а всё остальное, связанное с обновлениями статусами заказов, удалениями данных будет упираться в безопасность и комплаенс

Теги:
+3
Комментарии1

Дайджест: новое за лето ☀️

🤖 Запустили AI-помощника Клаудию — она доступна в вашем личном кабинете. Клаудия поможет создать ВМ, уточнит задачу и подберет конфигурацию, подскажет команды в консоли. А еще настроит виджеты, алерты и нотификации для контроля ВМ, поможет найти нужное в документации и выступит как co-pilot. Попробуйте бесплатно — новым пользователям дадим 4 000 рублей на облачные ресурсы.

🖥️ В Evolution Foundation Models открыли доступ к новым open source моделям, в том числе к OpenAI 120b, Qwen-3, GigaChat, GLM-4.5 и другим. Всего доступно 20+ LLM, ранжировщиков и эмбеддеров, а до 31 октября вы можете бесплатно потестировать их на своих проектах.

Участвовали в крупных мероприятиях:

  • Провели митап Cloud․ru Tech Lab: AI&ML, где рассказали, как автоматизировали пользовательские сценарии с помощью AI-агента, разобрали устройство агентов, RAG и Ragas. А еще слушатели могли вживую пообщаться с экспертами, «прожарить» свое резюме и посетить демозону AI-решений на базе Cloud․ru Evolution.

  • Организовали конференцию GoCloud Tech 2025 о создании решений на базе AI и облаков. Обсудили кейсы внедрения AI&ML, тренды в создании облачной инфраструктуры, актуальные практики для работы с данными в облаке.

  • Во второй раз приняли участие в крупнейшей AI-выставке в мире — World Artificial Intelligence Conference в Шанхае 🇨🇳 На нашем стенде мы показали платформу Cloud․ru Advanced, провели встречи с Geely, Tencent, Baidu, IFlytek, GAC, TikTok, Alibaba, Li Auto и другими зарубежными компаниями.

🧠 Запустили бесплатный курс про создание ML-моделей и их внедрение в бизнес. Будет полезно менеджерам продуктов и проектов, DS-, backend- и frontend-разработчикам, продуктовым дизайнерам. Можно учиться в комфортном темпе, а в конце дадим именной сертификат.

✨ Предлагаем бесплатно протестировать сервисы Evolution Data Platform — новой платформы для полного цикла работ с данными:

  • Evolution Managed BI для визуализации и анализа данных в облаке, в стадии public preview;

  • Evolution Managed Airflow поможет управлять рабочими процессами. Находится в стадии private preview — напишите своему аккаунт-менеджеру, чтобы начать тестирование.

Запустили в публичное превью и другие сервисы Evolution Data Platform:

  • Evolution Managed Metastore — сведения о данных для клиентских приложений;

  • Evolution Managed Trino — массивно-параллельный аналитический SQL-движок Trino;

  • Evolution Managed Redis — кеширование данных, управление очередями и работа с данными в реальном времени.

🎁 А еще до 31 декабря 2025 года дарим юрлицам 35 000 бонусных рублей на Evolution Managed Trino, Evolution Managed Metastore и Evolution Managed Spark.

🔝 С радостью делимся успехами наших клиентов:

🎙️ Провели несколько интересных вебинаров и подкастов — каждый из них вы можете посмотреть в записи: 

💳 Упростили регистрацию в реферальной программе: теперь подать заявку можно в несколько кликов, а на каждом этапе вы можете получить помощь менеджера. Присоединяйтесь к программе до 30 сентября, рекомендуйте сервисы Cloud.ru, получайте 20% от суммы их чеков в первый год и 15% — в последующие.

До скорой встречи!

Теги:
0
Комментарии0

Привет!

Рады поделиться с сообществом отличной новостью: теперь Explyt доступен для скачивания с JetBrains marketplace.

Установить Explyt 4.2 с AI агентом для написания кода, тестирования и дебаггинга можно в один клик из вашей IDE (IntelliJ IDEA 2024.1+, PyCharm 2024.1+, GoLand 2024.1+).

Новые версии плагина могут появляться на маркетплейсе с небольшой задержкой, поэтому мы сохранили возможность установки с нашего сайта.

Всем отличной пятницы 🖖

Теги:
+2
Комментарии0

Не так давно была опубликована новость, мобильное AI-приложение Siro (штаб-квартира в Нью-Йорке) привлекло инвестиции на сумму 50 млн.$! Чтобы вы понимали, Siro - это ИИ для записи и анализа продаж в оффлайне.

Но предлагаем немного откатиться. Скрипты, таблички, CRM - всё это отлично работает, если продажа происходит в Zoom или через почту. А если ты стоишь на складе, общаешься с директором завода, и рядом грохочет погрузчик? Или один консультант в торговом зале делает 2 продажи в день, а второй в 4 раза больше? Еще недавно такие встречи исчезали без следа. Ноль данных, ноль обучения. Siro решил это изменить. И теперь то, что раньше исчезало в воздухе, превращается в цифры, инсайты и выручку.

В чём идея?
Siro записывает и анализирует живые, офлайн-продажи. Продавец просто включает Siro и дальше система сама транскрибирует разговор, извлекает ключевые фразы, ошибки, возможности. Ты просто продаёшь - система всё сделает. Больше данных → лучше обучение → выше закрытие сделок → выше выручка.

Похожие решения в России - Аудиобейджи Gran.

Аудиобейдж - это устройство, созданное для обеспечения высококачественной записи разговоров сотрудников с клиентами. Внешне он выглядит как обычный бейдж с ФИО сотрудника, его должностью и надписью, предупреждающей клиента о записи разговора.

Каждый аудиобейдж работает с умным хабом, который по окончании смены заряжает устройства, обрабатывает и очищает записи от пауз, и передает их в систему мониторинга и речевой аналитики, которая отслеживает работу всех устройств.

Каждый записанный разговор сотрудника транскрибируется в текст для последующего анализа. В свою очередь, модуль речевой аналитики проводит глубинный анализ записей и расшифровок разговоров, после чего фиксирует данные в статистических отчетах и позволяет своевременно реагировать на несоблюдение скрипта, негативные фразы, стоп-слова и прочие речевые паттерны.

Система оценивает компетентность сотрудников и их уровень знания ваших продуктов/услуг. Модуль проводит анализ речевых особенностей, включая слова-паразиты и уменьшительно-ласкательные слова. Выявляет потребности клиентов и позволяет быстро реагировать на их запросы
Система оценивает компетентность сотрудников и их уровень знания ваших продуктов/услуг. Модуль проводит анализ речевых особенностей, включая слова-паразиты и уменьшительно-ласкательные слова. Выявляет потребности клиентов и позволяет быстро реагировать на их запросы

В чём тренд?
«AI в sales enablement» - не хайп, а новая норма. Всё, что раньше делал руководитель продаж на слух, теперь делает нейросеть на цифрах. Это как если бы у тебя был аналитик, коуч и ассистент в кармане! Аналитики уверены: полевые продажи — это следующая большая зона роста для AI.

В следующем посте, о том, где деньги и как это работает

Теги:
0
Комментарии0

Представлен инструментарий Stupid Meter для оценки в реальном времени работы крупных языковых моделей, включая OpenAI GPT-5, Anthropic Claude Opus 4 и Google Gemini 2.5 Pro. Система непрерывно запускает более 140 тестов, проверяя корректность, стабильность, эффективность и способность к восстановлению после ошибок. Результаты отображаются на виде таблице, показывающем текущее состояние моделей.

Также Stupid Meter анализирует затраты на выполнение задач. В расчёт берутся не только цены API, но и количество попыток, необходимых для получения правильного ответа. Таким образом, более дорогая модель может оказаться выгоднее «дешёвой», если справляется быстрее. Исходный код проекта на GitHub: AI Stupid Meter - API Server и AI Stupid Meter - Web Frontend.

Теги:
0
Комментарии0

Я уже писал, из чего состоит протокол, как выглядят сервер и клиент, и зачем вообще всё это проксирование. Теперь — шаг вперёд: как вся эта архитектура живёт в реальных приложениях.

Если смотреть на схемы выше, то картина получается парадоксальная. Уровень связности высокий: запросы к LLM проксируются через хост, а MCP-сервера сидят как отдельные острова, каждый тянет свои данные — базы, файлы, API. На первый взгляд хочется спросить: «зачем такие сложности?». Ответ простой — тарификация и контроль. Если бы сервер напрямую ходил к LLM, владелец MCP оказывался бы заложником чужой экономики. А так запрос идёт через клиента/хост, и именно пользователь контролирует, когда и какой токен уходит в модель.

Важно понимать: MCP-сервер всегда на стороне провайдера данных. Это он готовит промпты, пишет функции, агрегирует источники. Ваша задача — не изобретать велосипеды, а собрать этих провайдеров, подключить через MCP и дальше использовать уже в своих оркестраторах (хоть LangChain, хоть самописные пайплайны).

Почему MCP имеет значение? Всё зависит от того, где вы стоите:
– Разработчику MCP сокращает время интеграции и даёт готовый слой абстракций.
– ИИ-приложениям MCP открывает экосистему источников и тулзов.
– Пользователю MCP гарантирует, что его данные не уходят вслепую, а действия согласованы.

В сухом остатке: MCP — это не про «ещё один протокол», а про баланс удобства и контроля. Пример банальный, но показательный: пользователь хочет слетать в Барселону. Серверы MCP подтянули календарь, историю поездок, поиск рейсов и отелей. Агент сложил всё в кучу и забронировал отпуск за минуты. Задача, которая вручную заняла бы часы.

В следующей части разберём, какие паттерны интеграции MCP-серверов с LLM-оркестраторами реально просто работают

Ссылки, как обычно, в моём канале

——————
Менеджер? Давай сюда!
Ищи работу здесь
Технологии и архитектура

Теги:
0
Комментарии0

Шанхайская лаборатория искусственного интеллекта (Shanghai AI Lab) представила Intern-S1.

Это мультимодальная модель для научных исследований, которая умеет анализировать текст (включая уравнения, химические формулы и аминокислотные последовательности) и изображения (в том числе фотографии микропрепаратов, схемы и диаграммы).

Модель объединяет несколько специализированных компонентов:

• Vision Transformer (ViT) на базе InternViT-6B для анализа изображений (таких как фотографии микропрепаратов и диаграммы);
• Динамический токенизатор для структурированных данных. Обрабатывает молекулярные формулы (SMILES), первичную структуру белка (FASTA) и другие научные нотации. Он сжимает информацию в среднем на 70% эффективнее традиционных методов.
• Энкодер временных рядов для работы с последовательными числовыми данными, например, данными от сенсоров в длительном научном эксперименте.
• Языковая модель на основе Qwen3 для обработки текстов и интеграции всех типов данных.

Intern-S1 использует архитектуру MoE. Модель содержит 241 млрд общих и 28 млрд активных параметров. Такой подход позволяет эффективно распределять вычислительные ресурсы, активируя только необходимые модули для конкретных задач, что снижает энергопотребление.

В процессе дообучения Intern-S1 использовался метод тонкой настройки supervised fine-tuning (SFT) для мультимодальных задач и обучение с подкреплением (reinforcement learning, RL).

Также применялся новый подход Mixture-of-Rewards (MoR), который комбинирует награды за точность, информативность и верифицируемость ответов, ускоряя обучение в несколько раз.

В общей сложности для обучения Intern-S1 использовалось около 5 триллионов токенов, из которых примерно половина — это высококачественные данные из научных статей в формате PDF.

Сейчас Intern-S1 лидирует среди открытых моделей в бенчмарках ChemBench (83,4%), MathVista (81,5%) и MatBench (75,0%). Также она превосходит конкурентов в тестах MicroVQA (63,9%) и MSEarth-MCQ (65,7%).

Разработчики утверждают, что Intern-S1 особенно эффективна в междисциплинарных задачах, требующих анализа данных из разных областей.

Intern-S1 доступна на платформах Hugging Face и GitHub.

Теги:
0
Комментарии0

В прошлой заметке я писал про сервер и клиент, а теперь хочу копнуть глубже и пройтись по составу протокола. Это будет чуть упрощённая версия, чтобы не утонуть в спеке, но картинка станет понятнее.

На самом дне MCP — транспорт. Тут нет никакой магии: JSONRPC. Его работа — просто донести пакет от клиента до сервера и обратно. Запросы, ответы, нотификации, ошибки — всё аккуратно упаковано, но без бизнес-смысла.

Дальше идут данные. Со стороны сервера это Resources, Prompts, Tools. Resources управляют файлами, базой, API-ответами и прочим контекстом, который нужен ИИ-приложениям. Внутри этого — Content: текст, картинки, аудио, бинарь, блоки. Prompts описывают доступные подсказки и параметры. Tools — это исполняемые функции, которыми сервер делится с клиентом, от файловых операций до API вызовов.

Со стороны клиента данные другие. Sampling.Complete позволяет серверу дёрнуть LLM клиента без встроенного SDK. Elicit даёт возможность уточнить что-то у пользователя: параметры, подтверждения, ввод. Logging отправляет обратно логи и диагностику.

Есть и служебный слой: Initialize для рукопожатия, Capabilities для описания возможностей сторон, плюс сервисные штуки вроде уведомлений о прогрессе, подписок/отписок и отмен операций.

В итоге MCP — это не просто «реестр» инструментов, а полноценный протокольный шлюз. Сервер экспонирует ресурсы и инструменты, клиент решает, что из этого реально использовать. Баланс тот же: удобство для разработчиков серверов и полный контроль у пользователя.

В следующей заметке можно будет разобрать, как все эти части складываются в реальную работу: от того, как сервер отдаёт ресурсы, до того, как клиент подтверждает вызовы LLM.

Ну а чтобы вам не было скучно, я приложу сравнение протоколов, дабы можно было понять роль MCP относительно других

Теги:
-1
Комментарии2

OpenAI внедряет проверку возраста в свою нейросеть ChatGPT. Если ИИ решит, что пользователь младше 18 лет по стилю общения, то он получит доступ только к урезанной версии ChatGPT с цензурой и родительским контролем. Также нейросеть обучат не вступать во «флиртующие разговоры» с несовершеннолетними и не обсуждать темы, связанные с самоубийством.

Взрослый пользователь сможет подтвердить свой возраст, предоставив паспорт или водительские права. «Мы понимаем, что это нарушает конфиденциальность для взрослых, но считаем это оправданным компромиссом», — пояснили в OpenAI.

Теги:
+2
Комментарии3

Из сегодняшнего. Давно уже напрашивается MCP registry. Появился MCP реджистри. Не знаю, насколько аудитория погружена, поэтому если нет, то я подробнее распишу

Model Context Protocol (MCP) — это не классическое API, а новый слой взаимодействия между LLM и источниками данных: вместо того чтобы самому писать запросы, интеграции и «велосипеды», бизнес просто подключает MCP-серверы, которые находятся у провайдеров данных. Провайдер отвечает за подготовку промптов, функций, агрегацию источников и поддержку версий, а компания получает централизованный доступ к данным и готовым описаниям. Важно: MCP разводит зоны ответственности — финансы за работу LLM остаются у вас, а ответственность за качество данных и промптов несёт провайдер; таким образом, вы оптимизируете бюджеты, снижаете риски и можете гибко строить оркестрацию (через LangChain или свои пайплайны) без затрат на «ручные» интеграции с контролем версий отпровайдера

Раньше каждая команда или компания искала MCP-сервера вручную, через частные списки или разрозненные каталоги, что замедляло внедрение и поддержку клиентов. Теперь MCP Registry выступает единым «источником правды», где можно быстро находить, подключать и проверять сервера

Думаю, что ближайший год-два мы будем наблюдать, как наровне с публичными АПИ, будут появляться публичные MCP для интеграций. Что уж там, они есть уже у 1С даже, хотя там нюансы, конечно

Source

Теги:
+2
Комментарии0

Хайп вокруг Model Context Protocol сейчас только набирает обороты. Все обсуждают, но толком мало кто понимает, как это работает под капотом. Я хочу поделиться тем, что сам знаю и использую, и начать серию заметок, где разберу протокол по слоям: от сервера до клиента. Без академического занудства, но с технической точностью.

Начнём с сервера. Это не просто API с ручками и базой. Это инфраструктура, которая хранит версии контрактов и управляет доступом к провайдерам через CQRS-подход. Только это не «чистый» CQRS, а своя интерпретация. У нас есть три ключевых блока: Tools — всё, что записывает (файлы, API вызовы, база), Resources — всё, что читается (ответы из API, файлы, БД), и Prompts — шаблоны и подсказки для взаимодействия. Вместе это даёт централизованный контроль и прозрачное управление контрактами.

Клиент, в отличие от классического сетевого «тупого» потребителя, выступает протокольным посредником. Он решает, что серверу можно, а что нельзя. Через Sampling клиент подтверждает вызовы к LLM, через Roots задаёт границы доступа к файловой системе, а через Elicitation уточняет недостающие данные у пользователя. Сервер может многое, но последнее слово всегда остаётся за клиентом.

В итоге MCP выглядит не как очередная модная аббревиатура, а как архитектурный способ держать баланс: серверу — удобство, пользователю — контроль. В следующей заметке покажу больше деталей клиентской стороны и зачем весь этот «слоёный пирог» вообще нужен.

Теги:
-1
Комментарии0

LLamaSwap - гибкая альтернатива Ollama
Ollama — прекрасное приложение, основанное на llama.cpp, которым я пользовался для инференса локальных моделей до недавних пор, однако у него есть несколько критических недостатков:

  • Отсутствие поддержки всех GPU и BLAS, доступных в llama.cpp. Для меня это стало проблемой после перехода на Radeon RX 6800: инференс через Vulkan на llama.cpp работает быстрее и стабильнее, чем ROCm, но Ollama не поддерживает Vulkan.

  • Отсутствие тонкой настройки. Например, на момент написания статьи в Ollama нельзя выгружать часть MoE-слоев на CPU, что позволяет сильно увеличить скорость инференса при нехватке VRAM для загрузки всех слоев на GPU.

  • Ollama использует собственное хранилище моделей, несмотря на то, что под капотом работает с GGUF. Если загрузить модель с Hugging Face, Ollama всё равно скопирует её в своё хранилище, а модели в наше время весят не мало и занимают лишнее место на SSD.

  • Функции доступные в llama.cpp появляются в ollama с задержкой , а иногда и вовсе не появляются.

Мне нужна была альтернатива, способная динамически управлять загрузкой моделей в памяти через API без моего участия, как это делает Ollama, но без вышеперечисленных недостатков. В итоге я остановил выбор на проекте llama-swap.

Llama-Swap — приложение на Go, которое запускает несколько инстансов llama-server и проксирует запросы к ним по заданным правилам.

Плюсы по сравнению с Ollama:

  • Полный доступ ко всем возможностям llama-server (например --override-tensor для выгрузки MoE слоев на CPU).

  • Поддержка большего количества GPU кскорений (таких как Vulkan или даже связки Vulkan + CUDA)

  • Возможность настроить отдельную версию llama-server для каждой модели (если в будущих обновлениях что то сломается).

  • Более гибкая настройка правил загрузки/выгрузки моделей в память: (одновременная загрузка, поочередная по запросам).

  • Не дублирует модели на диске (если используются форматы поддерживаемые llama.cpp).

  • Из коробки есть WebUI для управления загрузкой/выгрузкой моделей.

Минусы:

  • Из коробки не работает, требуется настройка через config.yaml и наличие рабочего llama-server.

  • Проект молодой, и его дальнейшая судьба пока не ясна.

Основные пункты файла конфигурации

  • Список моделей с указанием их расположения и параметров запуска (влючая путь к llama-server).

  • Группировка моделей, к группам применяются правила загруpки/выгрузки из памяти: - Все модели в группе загружены одновременно. - Модели загружаются по мере поступления запросов

  • Различные настройки прокси, порты, таймауты и пр.

У меня мини-ПК с интегрированной Radeon 780m, 32 ГБ ОЗУ и eGPU RX 6800.
Я полностью перешел на Llama-Swap + OpenWebUI и всё больше отказываюсь от использования онлайн-сервисов вроде OpenRouter — ведь возможностей моего недорогого, по современным меркам ПК, хватает для запуска, таких моделей как Gemma3 30B и Qwen3-Coder-30B-A3B-Instruct. Думаю, в скором времени, когда ПК с объёмами памяти от 64 ГБ и выше станут ещё дешевле, интегрированная графика — мощнее и на рынке окажется множетсво БУ GPU с объемом VRAM 16ГБ и выше, часть людей, использующих LLM для своих задач, сможет полностью перейти на локальный инференс. Хотя это, возможно, это только моя фантазия.
Всем спасибо за прочтение.

Теги:
+2
Комментарии0

Привет, Хабр!

Всего две недели назад вышла версия Explyt 4.1 с поддержкой Python, MCP серверов, новыми Rules и Workflows, а уже сегодня мы рады поделиться новым релизом Explyt 4.2 с поддержкой Go. Теперь все фичи AI агента доступны в GoLand.

Важное обновление

Начиная с версии Explyt 4.2, мы вводим процедуру регистрации новых пользователей. Этот процесс займёт 30 секунд и позволит: 

  • повысить стабильность и доступность инфраструктуры из любой точки мира 

  • корректно соблюдать правовые требования 

Если вы уже пользуетесь плагином, потребуется пройти авторизацию в своём аккаунте прямо из интерфейса плагина.

Запуская бесплатный 30-дневный триал Personal версии, вы сразу получаете 4000 кредитов, которые можно использовать для запросов к LLM.

Возможность пользоваться своими моделями без регистрации в версии Community по-прежнему остается.

Скачать Explyt 4.2 можно с нашего сайта. Для багрепортов и фичриквестов - GitHub Issues и чат с командой плагина. Будем рады вашей обратной связи и философским вопросам 🖖

Теги:
+3
Комментарии2

Сотрудник компании написал промпт и сгенерировал картинку. Вопрос — кому она принадлежит? 🤔

На вебинаре разберемся с авторскими правами на AI-контент: насколько свободно его можно использовать, что говорит об этом закон и что делать, если сгенерированную вами картинку использовали конкуренты.

🔎 О чем расскажем?

  • Чьи в итоге права на AI-тексты, картинки и код — компании, сотрудника или AI-сервиса?

  • Что говорит о правах на AI-контент российское законодательство.

  • Судебная практика по делам о нейросетях.

  • Как использовать AI, чтобы не нарушать закон, и как закрепить авторское право на контент.

📅 Когда? 23 сентября в 11:00 по мск.

📍 Где? Онлайн — регистрируйтесь на вебинар по ссылке. Ждем всех, кто использует в работе искусственный интеллект и хочет понять, как закон регулирует AI-материалы.

А еще читайте нашу статью: «У кого права на сгенерированный AI код или картинку и как их защитить».

Теги:
0
Комментарии2

Сколько раз ваш бот соврал клиенту? Как вы тестируете свои ИИ сервисы?

Каждый понимает, что важной частью разработки является тестирование.

Но когда дело доходит до AI ботов или ассистентов, многие дают слабину. Или просто не понимают как эффективно проверить, что бот корректно отрабатывает задачи.

На днях обсуждали качество работы ботов и пришли к такому решению. Для проверки качества ответов, нужно создавать уникальные тест-кейсы, а именно:

  1. Создать список из 10-15 эталонных вопросов, на которые бот должен ответить с точностью 100% согласно поставленной задаче или обновлению в релизе.

  2. Создать список из 10-15 фейковых вопросов и сценариев диалога, на которые бот должен отвечать не выходя за рамки сценария.

Включить вопросы в обязательные тест-кейсы и прогонять с периодичностью n-дней.

Теги:
-1
Комментарии3

Qwen-Code - самая жирная халява. Анлим по токенам, контекстное окно в 1 лям токенов, 4к запросов в день, и всё это бесплатно.

Очередной подгончик от китайцев :)

Теги:
+3
Комментарии15

Недавно у нас в университете ИТМО прошел форсайт, посвященный видению развития отдельных направлений искусственного интеллекта на ближайшее будущее. Были приглашены эксперты из Индии и Китая, которые рассказали о развивающихся в их странах направлениях ИИ. В том числе выступали и наши эксперты.

Мне тоже удалось выступить. Я рассказывал о временных рядах, а именно о «изощренных» методах их прогнозирования и генерации на основе физически-информированных нейронных сетей. По этому поводу можно обратиться к другим моим статьям на хабре или в блоге.

Вот к каким трем основным направлениям развития ИИ в ближайшие 5-10 лет пришло большинство экспертов:

1. Вопросы эффективности. Развитие современных методов активно порождает вопросы эффективности как программного обеспечения, так и аппаратного обеспечения («железа»). Сейчас создают очень большие модели, для обучения которых требуются тысячи видеокарт. Для инференса этих моделей требуется меньше ресурсов, но это все равно затратно. Сейчас, например, актуальны методы квантизации больших моделей. В этой области ведется много исследований. Также ученые ищут подходы к более эффективному использованию железа, например, как оптимальнее оркестрировать поток задач.

2. Биологически правдоподобные модели. Вторым направлением можно выделить построение новых моделей машинного обучения на основе принципов работы биологических нейронных сетей. Наш мозг очень эффективно обрабатывает входящую информацию: в каждый момент времени активируются не все нейроны сразу, а только те, которые нужны для текущей задачи. Кстати, если бы работали все нейроны одновременно, то в голове возник бы шум, и мы не смогли бы сконцентрироваться на чем-то одном.

А в классических нейронных сетях все не так — там задействуются все нейроны одновременно. Исключением являются модели Mixture of Experts (смесь экспертов). Их принцип работы можно вообразить так: представьте, что вы задаете нейронной сети вопрос по математике. Очевидно, что в данный момент не нужно задействовать знания по биологии, истории и т.д. В MoE есть специальный блок — маршрутизатор (router) — который отвечает за перенаправление запроса к тому или иному «эксперту». Конечно, он может направить запрос сразу к нескольким экспертам, если вопрос затрагивает разные области знаний.

На практике нет такого явного тематического разделения экспертов, обычно они подбираются и обучаются самостоятельно для наилучшей генерации той или иной последовательности. И обычно эксперты активируются не для всего запроса целиком, а для отдельных токенов (например, слов) внутри этого запроса.

В общем, направление верное, собственно все чат боты сегодня строят на этой архитектуре. Однако в реальном биологическом мозге эта система представляет собой гораздо более сложную структуру. В мозге взрослого человека около 86 миллиардов нейронов и на каждом нейроне может быть от 5 до 10 тысяч синаптических связей. Как можно понять, плотность связей в нашем мозге чрезвычайно высока.

3. Фундаментальные мультимодальные модели и новая математика. 

Наконец, последнее направление связано с созданием не просто языковых моделей, а фундаментальных моделей, работающих с разными модальностями (типами данных). На самом деле, любую информацию можно свести к языку — даже математические формулы можно просто описать словами. Однако в этом направлении предлагается переосмыслить текущие подходы и развивать модели с новой математикой для описания этих различных модальностей.

Также до сих пор нет единого математического обоснования нейронных сетей, лишь отдельные области и лишь отдельная математика. А когда будет единая теория не ясно.

В общем, есть куда двигаться. А как вы считаете какие направления появятся или переосмыслят в ближайшее 5-10 лет? Пишите комментарии, будет интересно почитать.

Мой блог: kirill_zakharov_blog

Теги:
0
Комментарии0

На Хабре только и разговоров что про ИИ. Он уже пишет код, пилотирует ракеты и, кажется, вот-вот отнимет у нас последнюю кружку с кофе на офисной кухне.

В топы залетают статьи про увольнения, будущее LLM-моделей, новости про OpenAI. Их активно обсуждают, ругаются, соглашаются. И всё меньше говорят о прошлом, о том, как всё начиналось.

А зря.

Скоро никто не ответит с ходу, почему счёт начинается с нуля, а не с единицы. Да уже сейчас многие испуганно полезут в ChatGPT.

А ведь за этим стоят фундаментальные решения, архитектурные баталии и гениальные озарения, которые определили всё, с чем мы работаем сегодня. Помнить о них — значит не наступать на пусть и симпатичные, но всё-таки грабли прошлых ошибок.

Мы в Профи.ру решили, что День программиста — идеальный повод устроить себе исторический reset --soft. Проверить, насколько мы, айтишники, помним и ценим своё прошлое.

Поэтому сделали тест, в котором погуляем по разным эпохам в ИТ.

Актуалочку тоже добавили — нагенерили красивых ИИ-картинок в Sora для каждой эпохи.

👉 Пройти тест

Если что, мы не хотим вас проверять и оценивать. Просто решили дать повод улыбнуться и отвлечься от рутинных задач.

А вы как думаете? Мы слишком забываем о прошлом? Или это естественный ход вещей? Делитесь мнением и своими результатами в комментах.

А ещё советуйте интересные вопросы, которые можно было бы добавить в этот тест :)

Теги:
+3
Комментарии0

Нейросети в QA. Подборка важнейших кейсов применения.

Искусственный интеллект в QA это уже не теория из будущего, а практический инструмент, доступный здесь и сейчас. Пока одни спорят, заменит ли ИИ тестировщика, другие уже используют его, чтобы избавиться от рутины и сосредоточиться на действительно сложных задачах.

Нейросети способны взять на себя генерацию тестовых данных, помочь в написании автотестов, проанализировать тысячи строк логов и даже превратить технический отчет в понятный документ для бизнес-команды. В этом коротком посте я собрал подборку конкретных кейсов, которые помогут вам сделать работу быстрее, качественнее и интереснее.

Кейсы по использованию нейросетей в QA

  1. Генерация тест-кейсов на основе требований

  2. Подготовка позитивных и негативных тестовых данных

  3. Адаптация и улучшение баг-репортов

  4. Перевод сценариев в формат Gherkin (Given-When-Then)

  5. Генерация идей для негативного тестирования

  6. Автоматический анализ логов ошибок

  7. Помощь в написании автотестов и шаблонов

  8. Конвертация технической информации в пользовательские инструкции

  9. Голосовое управление заведением баг-репортов и создания чек-листов

  10. Генерация финальных отчётов по тестированию

  11. Помощь в написании автотестов: генерация кода, шаблонов и отдельных функций для фреймворков автоматизации

  12. Подготовка баг-таблиц и чек-листов

  13. Создание слайдов по итогам тестирования

  14. Автоматическая сверка ожидаемого и фактического поведения

  15. Генерация SQL-запросов на основе текстового запроса

  16. Перевод технических отчётов для бизнес-аудитории

  17. Проверка качества текста / интерфейса (UX-копирайтинг)

  18. Генерация данных для нагрузочного тестирования

  19. Сравнение версий документации / требований

  20. Сбор фидбэка из отзывов пользователей (тематический анализ)

  21. Создание чат-ассистента по документации и API

  22. Анализ требований на предмет неясностей, противоречий и неполноты

  23. Прогнозирование областей с высокой вероятностью дефектов

  24. Оптимизация тестовых наборов (выявление избыточных тестов)

  25. Генерация идей для тестов безопасности

Этот список лишь небольшая часть того, как нейросети могут усилить работу QA-инженера. Главный вывод прост: ИИ не заменяет специалиста, а становится его личным ассистентом мощным, быстрым и безотказным. Он помогает находить неочевидные сценарии, экономить часы на подготовке данных и отчетов и, в конечном счете, повышать качество продукта. В своем коротком посте я представил лишь самые популярные примеры того как можно использовать нейросети в работе QA, но в полной коллекции под названием "70 кейсов применения нейросетей для QA" вы найдете их гораздо больше.

Теги:
-2
Комментарии0

Сможет ли ИИ заменить юристов? Ответ — нет. И вот почему

Привет! На связи Егор Ярко, PR-директор «Технократии». Возможно, вы уже встречали наши материалы про ИИ в ленте Хабра — статьи, аналитические обзоры, новости. Теперь мы пошли дальше: делаем не только тексты, но и видеоролики по самым интересным темам.

Сегодня мы опубликовали сжатый пересказ нашего исследования о развитии индустрии LegalAI — технологий, которые автоматизируют работу юристов. Мы разобрались, насколько глубоко нейросети уже проникли в юридическую рутину и способны ли языковые модели вообще оставить юристов без работы.

Если удобнее смотреть на VK.Video, где мы тоже выложили выпуск.

Буду рад конструктивной критике — этот формат для нас пока новый, и обратная связь действительно помогает делать его лучше.

А ещё рекомендую подписаться на:

Спасибо, что дочитали! Отличной пятницы и до встречи на Хабре 👋

Теги:
-1
Комментарии0

Вышла обновленная и дополненная версия статьи Темные лошадки ИИ - Инференс LLM на майнинговых видеокартах Nvidia CMP 40HX, CMP 50HX, CMP 90HX

В новой версии добавлены проверенные данные по CMP 40HX, результаты практических тестов и реальное сравнение с RTX 3060

Теги:
0
Комментарии0

Хайп вокруг Gen AI достиг уровня, когда каждый второй продукт заявляет «AI-native», а каждый первый — «с AI-функцией». Много шума про «AI-агентов» и «автономные процессы». Но что стоит за этим на практике — маркетинг или новая архитектурная парадигма?

16 сентября в 17:00 (Мск) приглашаем на бесплатный вебинар «AI-агенты в бизнес-процессах: миф или реальность?», где разберём:

✔️ Архитектура: AI-агент как промежуточный слой — надстройка над API или нечто большее?

✔️ Жизненный цикл: цикл управления процессом с недетерминированной LLM?

✔️ Безопасность и контроль: как строить контрольные точки в «автономных» процессах и какие гарантии против ошибок?

✔️ Демо: соберём простой бизнес-процесс (запрос на закупку, обработка лида) на базе AI-агентов — принципы, костыли и ограничения.

🗓 Дата: 16 сентября

Время: 17:00–18:00 (Мск)

👨‍🎓Тренер: Коптелов Андрей — эксперт в области бизнес-анализа, управления проектами и процессами.

👉 Регистрация

Теги:
0
Комментарии0

Continual Learning, когнитивные дневники и семантические графы: эффективное обучение ИИ

Современные ИИ-системы сталкиваются с проблемой постоянного обновления знаний. В этой статье мы рассмотрим, как continual learning, когнитивные дневники и семантические графы помогают ИИ учиться и эффективно использовать информацию

Зачем ИИ нужно учиться?

Современные ИИ не могут полагаться только на заранее подготовленные данные. Мир меняется, появляются новые знания, а задачи усложняются. ИИ, который не умеет учиться в процессе работы, быстро устаревает. Именно поэтому обучение «на лету» или continual learning необходимо для гибкой и адаптивной системы.

Классический RAG vs. структурированные знания

Важно отметить, что классический RAG (Retrieval-Augmented Generation) предоставляет в основном данные, а не знания. ИИ нужны свежие, но структурированные знания, а не просто наборы документов или текстов.

Continual Learning

Continual learning позволяет ИИ адаптироваться к новым данным без полного переобучения модели. Такой ИИ может корректировать свои выводы, интегрировать свежую информацию и улучшать свои решения со временем.

Однако прямое обучение на новых данных несёт риск: низкокачественная информация может ухудшить модель. Для безопасного использования continual learning требуется механизм предварительного анализа информации, который отсекает вредное и выбирает полезное для обучения.

Когнитивные дневники

Когнитивные дневники позволяют ИИ фиксировать знания и опыт, структурировать их и возвращаться к ним при необходимости.

Пример аналогии с человеком: студент на паре делает конспект, но не может сразу выучить весь материал. Дома он анализирует конспект, сверяется с предыдущими записями и уже имеющимися знаниями, переосмысливает и дополняет. Когнитивные дневники позволяют ИИ действовать так же — запоминать, структурировать и переосмысливать информацию.

Семантические графы

Семантические графы помогают структурировать знания, связывая объекты, понятия и события в логическую сеть. Это превращает «сырые данные» в структурированные знания, которые ИИ может использовать для осмысленных выводов и принятия решений.

Синергия подходов и варианты использования

  • Когнитивные дневники + семантические графы без continual learning:
    ИИ фиксирует знания и структурирует их, как студент, который делает конспект, даже если у него слабая память. Позволяет сохранять и переосмысливать информацию, но не обеспечивает автоматическую адаптацию к новым данным.

  • Continual learning + когнитивные дневники + семантические графы:
    Наиболее эффективная комбинация. Continual learning позволяет адаптироваться к новым данным, когнитивные дневники фиксируют и фильтруют информацию, семантические графы структурируют знания для осмысленного использования. ИИ не просто запоминает данные, а учится понимать, интегрировать и проверять новые знания, максимально приближаясь к тому, как учится человек.

Таким образом, даже без continual learning система «когнитивные дневники + семантические графы» полезна, но идеальный вариант — объединение всех трёх подходов.

Преимущества такой системы

  • Структурированное хранение знаний.

  • Возможность фильтровать и анализировать информацию перед обучением.

  • Постоянное улучшение модели без полного переобучения.

  • Возможность интеграции свежих данных и знаний в реальные задачи.

  • Подход, близкий к тому, как учится человек, что повышает качество выводов ИИ.

Теги:
-1
Комментарии7

https://sanand0.github.io/llmrandom/

Статья о том, что при попытке получить "случайное" число от 0 до 100, LLM возвращает не истинно случайное число, а демонстрируют предвзятость (bias), обусловленную особенностями обучающих данных (например знаменитое 42, а это отсылка к роману "Автостопом по Галактике"). Причем распределение этих чисел примерно одинаковое от модели к модели (OpenAI GPT-3.5 Turbo, Anthropic Claude 3 Haiku, Google Gemini 1.0 Pro), что говорит о "культурологическом" смещении в вероятностных механизмах.
В общем нейросети это не про рандом.

It picks like humans

Теги:
0
Комментарии1
1
23 ...

Вклад авторов