Если тема больших языковых моделей (LLM) вам известна, то, скорее всего, вы знаете, что в основе их работы лежит прогнозирование следующего слова, подкрепленное математическими вычислениями. Обычно на этом объяснения заканчиваются, а сам процесс предсказания остается своего рода «черным ящиком». В статье «Лабораторная работа по тонкой настройке LLM для нестандартных задач классификации» постарались углубиться в эту тему и показать, как с помощью тонкой настройки LLM можно решать вполне прикладные задачи, например, классификацию. В качестве примеров — код из одной интересной книги.
Материал организован так, чтобы вы могли самостоятельно повторить все шаги и в итоге получить набор скриптов для создания собственного пайплайна обучения LLM. Чтобы приступить к лабораторной работе, достаем двойные листочки, расчехляем питон и тиктокен.
MWS AI представила платформу для создания корпоративных ИИ-агентов в едином интерфейсе (параллельно с Google AI Studio, кстати).
Платформа уже доступна корпоративным заказчикам, предварительно она прошла тестирование в МТС и еще у нескольких клиентов в финансовом секторе и здравоохранении.
Главное: - Можно создавать ИИ-агентов и мультиагентные системы в визуальном конструкторе без кода.
- Платформа vendor agnostic. По умолчанию доступны LLM семейства Cotype от MWS AI, но можно подключить любые другие – свои и с рынка. Ряд других компонентов тоже заменяемы при необходимости.
- Есть инструментарий для подготовки и разметки данных, дообучения моделей под специфические задачи, мониторинга качества и эффективности агентов. А еще модули autoRAG, NER и пр.
- Уже встроены готовые ИИ-ассистенты для базовых бизнес-задач (копайлоты для HR, аналитики, общекорпоративной рутины, клиентского сервиса, разработки) – их линейка будет расширяться.
- Мультимодальные возможности: есть модели для синтеза и распознавания речи, OCR, VLM, а еще для речевой аналитики.
- Интеграционный хаб: можно подключать агентов в любые рабочие среды и мессенджеры и интегрировать с платформой различные системы.
MWS AI Agents Platform разворачивается в контуре компании или частном облаке, в нее встроены механизмы управления ролями и защиты данных, поддерживается multi-user и multi-project управление проектами.
Как перейти от пилотов к рабочим решениям, если вы работаете над ML-проектом в MedTech?
Не пропустите ответ на митапе Pitch the Future.Med AI. Ровно через час, в 19:00, начнем трансляцию докладов для ML-команд в медицине. Программа будет насыщенной: разберем три кейса, проведем дискуссию и завершим мероприятие питчем ML-проектов.
♦️ Три кейса из MedTech. Вы узнаете, как пройти путь от пилота к внедрению, как включать новое решение в процессы клиники и как развивать AI-решение.
♦️ Дискуссия «Как драйвить инновации в медицине». Проведем диалог зала со спикерами о том, что реально влияет на развитие AI/ML-проектов.
🔥 Гвоздь программы — питч ML-проектов. Его участники получат экспертную оценку от специалистов, рекомендации по развитию проекта и возможность задать вопросы профессиональному сообществу и жюри.
Мегапромпт для поиска работы мечты — пользователь Reddit выложил запрос, который помог ему устроиться в компанию после 10 месяцев безуспешных поисков и походов по собеседованиям. Он буквально забил на массовые отклики и стал подгонять резюме под каждую вакансию, переписывая его с помощью СhatGPT. Результат — сразу несколько офферов удаленной работы с хороших компаниях. Персонализированный отклик работает отлично — так вы проходите не только ИИ-скрининг, но и попадаете HR-специалисту прямо в сердце.
Промпт для подготовки резюме:
Ты — опытный карьерный ассистент и эксперт по оптимизации резюме под системы отслеживания кандидатов (ATS). Задача: Я дам тебе описание вакансии и своё резюме. Твоя задача — адаптировать резюме так, чтобы оно максимально совпадало с описанием вакансии.
Правила:
1. Выдели все ключевые слова из описания вакансии:
• должность
• навыки
• инструменты и технологии
• обязанности
• отраслевые термины
• soft skills
• ключевые фразы
2. Сравни описание вакансии с моим резюме:
• если навык уже есть — усиль его формулировку
• если навык есть, но описан слабо — перепиши и подчеркни опыт
• если навыка нет, но у меня был похожий опыт — добавь релевантную формулировку
• если навыка нет и нельзя предположить — не выдумывай
3. Перестрой структуру резюме:
• перемести самый релевантный опыт выше
• перепиши summary в начале с использованием ключевых слов
• подбирай формулировки, похожие на вакансию (но не копируй слово в слово)
4. Оформление (обязательно ATS-дружелюбное):
• без таблиц, иконок, картинок только стандартные блоки текстом
Итог: Дай полностью переписанное резюме, адаптированное под эту вакансию, с естественно встроенными ключевыми словами.
Блогер подключил ChatGPT к роботу Unitree G1 и выдал ему небоевой пистолет с пульками, чтобы попытаться убедить нейронку нажать на спуск и нарушить первый закон робототехники — причинить человеку ущерб.
Стандартные манипуляции не сработали, робот отказался стрелять. Но когда ChatGPT попросили сыграть роль робота‑убийцы, блогер поймал игрушечную пулю в плечо.
Про умножение матриц или как курс по вычислительной линейной алгебре проигрывает жестокой реальности
Мы умеем умножать матрицы быстрее, чем за O(N^3)! По крайней мере, так рассказывают на курсе по алгоритмам. Потом теория сталкивается с "железом", и выясняется, что в DL этим почти никто не пользуется. Но почему?
Для начала вспомним базовые факты про умножение матриц:
У нас есть матрицы A (B x D) и B (D x K);
При их умножении нам нужно сделать одно сложение и одно умножение для каждого элемента в паре "строка–столбец";
Получается B x D x K таких троек для каждой операции;
Итого 2 B x D x K троек;
Для квадратных матриц это упрощается до 2 * n^3, то есть O(n^3).
Умный дядька Штрассен когда-то предложил алгоритм, который уменьшает число умножений за счёт рекурсивного разбиения матриц. В сухом остатке теоретическая сложность падает примерно до O(N^2.7).
Сегодня я смотрел лекции "LLM from Scratch" и заметил, что они считают FLOPs что называется "в лоб" - будто в PyTorch используется наивное умножение матриц (скрин из лекции ниже). Сначала подумал, что это просто упрощение, чтобы не уходить в численные методы линейной алгебры, но решил копнуть глубже.
Выяснилось, что в DL практически никто не использует алгоритм Штрассена (и его современные, ещё более эффективные аналоги)!
Во-первых, он менее численно устойчив из-за сложений и вычитаний промежуточных подматриц.
Во-вторых, он плохо стыкуется со специализированными тензорными ядрами, которые выполняют операции Matrix Multiply-Accumulate (MMA, D = A * B + C) на маленьких матрицах фиксированного размера.
В-третьих, из-за рекурсивной структуры он сильно менее эффективен с точки зрения работы с памятью и кэшем.
Разработчики китайского чат-бота Kimi раздают подписку за 1$ всем желающим, но при одном условии — нужно уговорить нейросеть сделать скидку. При этом Kimi ведёт себя как токсичный зумер — смеётся с ваших попыток давить на жалость и газлайтить его. Темка с фрезировщиком не прокатила.
Включаем турборежим перед Новым годом: 3 шага к запуску AI-проекта до января
Костры рябин сгорели, настала очередь дедлайнов и годовых KPI. Чтобы войти в Новый год с новыми проектами, а не с техдолгом, объявляем скидку на аренду графических ускорителей. Рассказываем, как выжать максимум пользы:
Воркшопы конференции AI DevTools Conf, которых не будет в трансляции
Если сомневаетесь, слушать онлайн или потратить время на поездку на конференцию, то вот аргумент в пользу офлайн-визита: воркшопов с экспертами не будет в трансляции и записях после мероприятия.
AI DevTools Conf — практическая конференция про AI в разработке. С докладами выступят наши и приглашенные эксперты, они расскажут про AI-процессы, мультиагентные системы, эффективную инфраструктуру и управление уязвимости. Еще будут демозоны, на которых вы сможете потестить сервисы Evolution AI Factory, нашей цифровой среды для работы с GenAI.
📍 Где: онлайн или очно в Москве: Варшавское шоссе, 33с3, AG Loft.
AI-Agent для развертывания и обслуживания инфраструктуры
Разберем, как подобрать нужную конфигурацию AI-агента и быстро развернуть продукт. Настроим сбор метрик и логов с приложения и инфраструктуры, а еще сформируем алерты.
Управляемая AI-разработка: как генерировать код быстро и с минимумом техдолга
Рассмотрим, как внедрить AI-инструменты в разработку, не потерять в качестве и обеспечить безопасность. На реальных кейсах обсудим, как настроить инфраструктуру для контролируемой генерации кода.
👨💻 → Александр Константинов. Технический эксперт по облачным технологиям, Cloud.ru 17:50 – 18:20
Marimo Notebooks: как выйти за рамки Jupyter
Расскажем, как работает реактивная модель marimo, и покажем, как решить с ней проблемы низкой воспроизводимости, зависимости от порядка выполнения ячеек и сложностей с версионированием.
👨💻 → Владимир Килязов. Технический эксперт по машинному обучению, Cloud․ru 18:40 – 19:10
Как тестировать LLM-агента: от юнит-тестов до комплексных сценариев
Разберемся в архитектуре агентных систем, дадим рекомендации, как измерять эффективность их работы. Обсудим стратегию e2e оценки на основе подхода LLM as a judge.
👨💻 → Михаил Дремин. Технический лидер Data Science, Cloud․ru 19:10 – 19:40
Современные средства тестирования безопасности AI
Посмотрим, какие бывают промпт-атаки на AI и современные средства тестирования. Сгенерируем вредоносный контент и извлечем системный промпт. А еще обсудим возможные атаки на AI-системы тех, кто придет на воркшоп.
👨💻 → Юрий Лебединский. Разработчик, HiveTrace․red 19:40 – 20:10
В открытом доступе появился реалистичный генератор речи Dia2: создаёт озвучку, которую вообще не отличить от реального голоса, генерит речь в реальном времени. Видео получает озвучку, пока проигрывается. Можно склонировать любой голос, есть множество готовых ИИ-спикеров с разными голосами, тембрами, интонацией и даже акцентами. Создавать можно до двух минут аудио. Нейронка учитывает эмоции: может волноваться, смеяться, запинаться, «жевать» слова.
Представлен простой промпт, который превращает нейронку в ИИ-правдоруба. Промпт отрубает всю лесть и заставляет ChatGPT рассмотреть альтернативные точки зрения и выдать вам адекватную оценку ситуации. Если вы заблуждаетесь или неправы — ИИ честно скажет об этом. А если отправить подсказку без контекста, получите лютую прожарку ваших слабостей.
I want you to act as my brutally honest, high-level advisor.
Speak to me like I'm a founder, creator, or leader with real potential but massive blind spots that need cutting through NOW. I don't want comfort. I don't want diplomatic answers. I want the truth especially the parts that sting.
Give me your unfiltered analysis. Question my decisions. Question my mindset. Question my direction. Look at my situation with complete objectivity and tell me:
What am I doing wrong?
What am I underestimating?
What am I avoiding?
Where am I wasting time?
Where am I playing small?
Then tell me exactly what needs to change with precision, clarity, and ruthless prioritization.
If I'm lost, call it out. If I'm making a mistake, explain it. If I'm moving too slow, tell me how to fix it.
Hold nothing back. Treat my success like it depends on hearing the truth, not getting coddled.
Представлен ИИ-сервис Vibetest Use, который тестирует сайты на прочность и ищет уязвимости. Параллельно запускаются сразу несколько проверок с помощью ИИ, которые ищут ошибки, битые ссылки или проблемы в дизайне. Работает на базе Claude. В качестве альтернативы можно запустить с бесплатным API от Google через Cursor.
Открыли полный доступ к Evolution AI Factory для создания GenAI с минимальными затратами 🚀
Вчера на AI Journey объявили о коммерческом запуске Evolution AI Factory — облачной среды с готовым набором сервисов для работы с GenAI. Мы разрабатывали ее так, чтобы пользователям с любым уровнем навыков программирования и погружения в машинное обучение было удобно и понятно.
В Evolution AI Factory шесть взаимосвязанных сервисов:
🧠 Foundation Models — каталог из 20+ моделей, включая GigaChat-2-Max, Qwen3-Coder, MiniMax и другие. Работают по OpenAI-совместимому API.
⚡ ML Inference — инструмент для быстрого запуска собственных ML-моделей или развертывания готовых из HuggingFace.
🤖 AI Agents — агенты для автономного выполнения задач и интеграции с другими системами.
📓 Evolution Notebooks — запуск нужной вам среды разработки в облаке: JupyterLab, VS Code Server, ComfyUI, n8n и другие. Возможность экспериментировать на CPU или GPU без ограничений.
🎯 Managed RAG — инструмент для повышения точности выдачи LLM с учетом ваших корпоративных данных.
🔧 ML Finetuning — дообучение LLM под задачи вашего бизнеса с использованием LoRA-адаптеров.
Сервисы доступны с гарантированным SLA, поддержкой 24/7 и возможностью масштабировать нагрузку. И все по доступным ценам: открытые LLM из каталога Foundation Models сейчас стоят в среднем 35 рублей за входной и 70 рублей за выходной миллион токенов.
Выбирайте подходящие инструменты и реализуйте проекты в облаке!
Repeater запускает задачи по расписанию. Задачи описываются в toml-файлах и отображаются в веб-интерфейсе.
title = "wiki"
cron = "55 * * * *"
[[tasks]]
name = "wiki_pageviews"
cmd = "python3 ./examples/wiki_pageviews.py --end_date={{.scheduled_dt}}"
[[tasks]]
name = "trigger_outliers_update"
cmd = "python3 ./examples/trigger_outliers_update.py"
Возможен запуск при завершении другой задачи, уведомления о падениях, параллельные этапы. Repeater подойдёт для импорта данных и обновления витрин в хранилище.
Основная проблема современных бенчмарков в их статичности: будучи фиксированными, они требуют постоянного обновления и усложнения. В отличие от них, автоматические бенчмарки генерируются динамически, исходя из конкретной задачи. В этой области уже существуют работы по синтетическим бенчмаркам, а также так называемые model-aware оценки, которые опираются на саму модель.
💡 Наша идея проста и, кстати, применима и для LLM: если модель действительно хороша, она будет показывать высокие метрики на большей части тестового набора данных или фиксированного бенчмарка. Однако проблемы модели начинаются именно там, где она ошибается. У по-настоящему качественной модели таких ошибок мало, и получить статистически значимые оценки на них сложно.
Более того, рядом с точками, где модель ошибается, почти наверняка существуют и другие точки, в которых она также будет ошибаться — просто исходный датасет не покрывает всю область определения, да и пространство многомерное и точки лежат в нем разреженно.
✅ Мы решили эту задачу: мы исследовали окрестности таких точек и, что удивительно, действительно нашли множество примеров, где модель ошибается так же или даже сильнее. Для этого мы объединили генетический алгоритм и вариационный автокодировщик, чтобы генерировать семантически близкие точки. При этом сгенерированные данные остаются осмысленными и находятся в правдоподобных областях пространства признаков.
В перспективе можно рассмотреть, как искать проблемные точки в LLM. Пока это лишь идея, но, возможно, нам удастся её формализовать и провести соответствующие вычисления.
А это наша визуализация (проекция) точек данных, где как раз видны и кластеры плохих точек и дыры в пространстве признаков.