Как стать автором
Поиск
Написать публикацию
Обновить
745.4

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

GSPO (Qwen RL Algorithm by Alibaba Cloud)

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров307

Qwen снова радуют релизом. Но на этот раз это не модель, а новый RL-алгоритм для обучения LLM

Метод называется Group Sequence Policy Optimization (GSPO), и именно он лег в основу последних громких моделей компании: Qwen3 Instruct, Coder и Thinking. Статья вышла пару дней назад, но о ней уже говорят все. Значит, пока разбираться и нам.

Сегодня один из самых популярных RL-алгоритмов для LLM – это GRPO (by DeepSeek). Если вам он не знаком – почитайте разбор вот тут. GRPO работает здорово и довольно стабильно, но на уровне токенов.

То есть в GRPO мы считаем награду для всей последовательности -> считаем важность каждого токена и применяем клиппинг также для каждого токена отдельно -> обновляем политику "на уровне токенов".

А в GSPO все то же самое происходит сразу для всей последовательности: считаем награду -> рассчитываем единый importance weight для всей последовательности и применяем клиппинг для всего ответа целиком с нормализацией по длине -> обновляем политику.

В чем преимущество такого подхода?

1. Не нужно устраивать танцы с бубном, когда работаешь с MoE. У GRPO из-за архитектурных особенностей MoE идет со скрипом, а тут все заводится из коробки.
2. Градиенты получаются менее шумными, потому что снижается дисперсия. Следовательно – еще более стабильное обучение. Следовательно – лучшие метрики при тех же ресурсах.
3. Инженерно реализуется гораздо проще.

Короче, выглядит очень привлекательно и, вероятно, станет следующим словом в RL для LLM (особенно в опенсорсе).

Читать далее

Новости

Как я слетал в Лиссабон на летнюю школу по машинному обучению LxMLS 2025

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров876

Лиссабонская летняя школа по машинному обучению (LxMLS) ежегодно проходит в Лиссабоне. Многие по ошибке думают, что её организуют в Луховицах, ведь только в Луховицах loss-функция включает в себя реальные потери — например, урожая кабачков из-за переобучения модели. 2025 год стал для LxMLS юбилейным — в 15-й раз собирая энтузиастов из мира Computer Science и Machine Learning. Мне повезло стать участником этого, без преувеличения, масштабного события, а потому в этой статье я поделюсь с Вами своим опытом:

Читать далее

Под капотом у ИИ

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.7K

Если вдруг автомобильный дилер скажет про свои автомобили, что у них под капотом двигатель, цикл которого состоит двух изотерм и двух адиабат и коэффициент полезного действия .., короче "Цикл Карно — идеальный термодинамический цикл". То Вы наверно покрутите у виска пальцем (к счастью не все покрутят и некоторые поймут и выслушают, может даже потом объяснят тем, кто хочет слушать) и пойдёте к другому. Но эти слова - правда и ничего кроме правды, но она вам не нужна.

Но вот это "звук винтажного двигателя V-8 «давно считался призывным вызовом «Мустанга», готового к спариванию» (mating call of Mustang), новая система обработки и усиления звука «спортивна и энергична», обеспечивает «более изящное рычание» и «низкочастотное ощущение всемогущества»" - полная туфта всего лишь для почёсывания ЧСВ потенциального покупателя и на качество движения никак не влияет.

Вот сейчас то же самое, слово в слово происходит в ИТ с его хайпом вокруг ИИ.

загляни под капот

Отгадай слово дня: от ручного поиска к автоматизации

Время на прочтение8 мин
Количество просмотров1K

На прошлой неделе наткнулся на забавную игру в слова – contexto.me, смысл прост: нужно отгадать секретное слово. При этом после каждой попытки видно, насколько близко по смыслу ваше слово было к ответу. Поиграв пару дней, захотелось написать такую игру самому, а также автоматизировать процесс решения, про что и данная статья.

Читать далее

Вебинары трека Наука о данных Летней цифровой школы Сбера

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров327

Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера.

Читать далее

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

Уровень сложностиПростой
Время на прочтение32 мин
Количество просмотров1.4K

Решение первого соревнования на kaggle титаник с помощью библиотеки от яндекса catboost. Два способа: обычная модель и второй: с перебором гиперпараметров с помощью randomizedsearch. Сравнение результатов.

Читать далее

Как ИИ меняет философию: от рефлексии к мышлению через prompt

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.2K

Философия всегда была искусством размышления но её инструменты оттачивались веками. Выделим три самых известных метода: диалектика, логика и понятийный анализ. Диалектика Гегеля строила мосты между противоречиями, логика Аристотеля задавала правила вывода, а аналитическая философия XX века разлагала понятия на атомарные составляющие (из-за чего наше время потерялось в пост-смыслах).

Читать далее

Поисковые подсказки: подход «генератор-дискриминатор»

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров521

Всем привет! Меня зовут Федор Курушин, я занимаюсь машинным обучением в поиске Wildberries. Прямо сейчас я работаю над развитием сервиса персональных поисковых подсказок.

Недавно вместе с коллегой мы представляли нашу совместную работу Product Search Prompts: Generator-Discriminator Approach на конференции FICC 2025.

О подходе, который мы разработали для создания поисковых подсказок и для поиска релевантных похожих запросов для разных бизнес-сценариев, и пойдет речь в этой статье.

Читать далее

Как мы обучали модели для кода GigaCode

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.2K

Привет, Хабр! Меня зовут Дмитрий Бабаев, я руководитель R&D GigaCode в Сбере. Сегодня расскажу о том, как мы создавали ИИ-помощника для программистов задолго до того, как это стало мейнстримом.

Многие компании думают о том, чтобы  выпустить собственного ИИ-помощника для разработчиков. Мы начали делать GigaCode около трех лет назад — ещё до появления Cursor и других популярных сегодня решений.

За это время мы создали целую экосистему решений для разработки – GigaDEV: IDE на основе IntelliJ, платформу Gitverse как аналог GitHub и сам GigaCode. 

Читать далее

ChatGPT 5 вышел! Что нового, бенчмарки, как получить доступ из России

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров12K

В четверг, 7 августа, в 20:00 по мск состоялось долгожданное событие в мире ИИ — OpenAI представила ChatGPT 5. В этой статье я собрал всю важную информацию из прошедшей демонстрации — это поможет понять, что же нового случилось в GPT 5 и чего ожидать от этой нейросети.

Эта модель не просто эволюционный шаг, а качественный скачок, позиционируемый как «разговор с экспертом». В статье мы разберем ключевые нововведения модели, впечатляющие результаты в бенчмарках и практические возможности (вплоть до генерации приложений!).

Читать далее

По следам GPT-5: как LLM все сильнее превращается в айфон

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров15K

LLMки можно любить и ненавидеть, но нельзя отрицать того, что это что-то очень большое и сильно трансформирующее все вокруг. Я регулярно и помногу размышляю над AI-агентами и в целом траекторией genAI движения и после вчерашней презентации GPT-5 мой личный паззлик окончательно сложился. Все это очень похоже на то, что мы уже видели.

И это — iPhone.

Читать далее

Оптимизация LLM: LoRA и QLoRA

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.6K

С ростом сложности и масштабности современных языковых моделей, таких как GPT, потребность в эффективных методах их адаптации под специфические задачи становится все более актуальной. Однако традиционные подходы к тонкой настройке моделей часто требуют огромных вычислительных ресурсов и значительного времени.

В этой статье мы рассмотрим два подхода — LoRA и QLoRA — которые обещают значительно снизить затраты на обучение без потери качества модели. Мы разберем, как эти методы позволяют оптимизировать вычисления и память, а также как с их помощью можно эффективно адаптировать большие модели под разнообразные прикладные задачи.

Читать далее

Новый приказ ФСТЭК: что нужно знать разработчикам Ai-сервисов для госсектора

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4K

Привет! Меня зовут Андрей, я руковожу отделом продуктов клиентской безопасности в Selectel. С 1 марта 2026 года в России начнут действовать новые требования к безопасности AI-систем в госсекторе. ФСТЭК утвердила Приказ №117 — первый документ, который официально регулирует создание и внедрение AI-решений на базе LLM в государственных информационных системах. Под катом разберемся, что изменения значат для рынка и как к ним подготовиться.

Читать далее

Ближайшие события

Выбираем лучший ультраширокий монитор летом 2025: история о том, как я заставил ИИ спорить с самим собой

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров6.3K

Доброго времени суток, друзья! Мое утро на днях началось не с кофе, а с того, что мой старый верный товарищ, ультраширокий Xiaomi Mi Curved Gaming Monitor 34", который мне еще года четыре назад подарил лучший друг, приказал долго жить. Вдвойне обидно.

Симптомы классические: черный экран, мигающий светодиод, и чтобы его запустить, нужно пошаманить с вилкой. Судя по всему, накрылась плата T-CON. А поскольку работа не ждет, нужно было немедленно приступать к поиску замены.

И да, сразу оговорюсь: мой финальный выбор — гиперспецифичен. Он подойдет вам, только если вы, как и я, белый гетеросексуальный мужчина среднего класса ищете ультраширокий монитор от 34 дюймов, черный и обязательно со встроенной эмбиент-подсветкой. Однако, я надеюсь, что само исследование рынка и детальный разбор моделей будет полезен любому, кто сейчас находится в поиске или рассматривает один из упомянутых вариантов. Моя цель — дать вам не рыбу, а удочку, которой я сам и воспользовался.

Читать далее

Защитим вдов и сирот от хищных ИИ-стартаперов

Время на прочтение3 мин
Количество просмотров2K

Ко мне на днях обратились сначала два стартапера, а потом и из большой компании по вопросу EDA с помощью AI. Я дал всем троим одну и ту же задачку и думаю сделать еще несколько таких задач, так как два тула эту задачку решили, один тул на ней лег, а еще четыре произвели некий код на языке описания аппаратуры SystemVerilog, который не проходил мой тест, то есть не являлся решением.

В чем социальная значимость таких задачек? Дело в том, что венчурные капиталисты тратят не свои деньги, а деньги, которые институциональные инвесторы, в частности пенсионные фонды - вкладывают в фонды венчурных капиталистов. Тем самым, хотя в США существуют законы, запрещающий неопытным инвесторам ("widows and orphans laws" - "законы о защите вдов и сирот") вкладывать в стартапы напрямую - вдовы и сироты все равно не защищены, так как живут на выплаты из пенсионного фонда, в который вкладывал их безвременно почивший отец семейства.

Также не открою Америку, что стартапер стартаперу рознь. Одни честно делают прототипы и решают задачки от потенциальных пользователей. А другие занимаются shmoozing - то есть ходят по тусовкам и пытаются что-то впарить VC говорением в стиле Остапа Бендера.

И вот чтобы защитить венчурных капиталистов (а через них - вдов и сирот) от стартаперов второго типа, мы с соратниками сделали задачку под названием SystemVerilog Microarchitecture Challenge for AI No.1:

Читать далее

Microsoft тестирует Gaming Copilot: ИИ-помощник интегрируется в Game Bar

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров464

Корпорация Microsoft начала бета-тестирование Gaming Copilot — искусственного интеллекта для геймеров, встроенного в Game Bar операционной системы Windows 11. Функция стала доступна участникам программы Xbox Insiders в рамках PC Gaming Preview и впервые позволяет получать помощь ИИ прямо во время игрового процесса.

Gaming Copilot представляет собой контекстно-зависимого помощника, который анализирует текущую игровую активность пользователя и предоставляет персонализированные рекомендации. Система использует данные Xbox Live, историю достижений и может обрабатывать скриншоты в реальном времени для более точного понимания игровых ситуаций.

Читать далее

AI Labyrinth от Cloudflare: как генеративный ИИ стал оружием против ботов-скрейперов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.7K

С развитием генеративного ИИ боты-скрейперы стали умнее и настойчивее. Они обходят традиционные методы защиты и массово сканируют сайты, собирая данные для обучения своих моделей. Ежедневно в сети Cloudflare фиксируется более 50 миллиардов запросов от ИИ-краулеров — это почти 1% всего интернет-трафика.

Компания предложила новое решение проблемы — AI Labyrinth. Вместо прямого блокирования инструмент дезориентирует ботов, заставляя их тратить время и ресурсы на обработку бесполезного контента.

Читать далее

Прозрачное обнаружение предвзятости в ИИ: Новый подход с использованием аргументации

Время на прочтение6 мин
Количество просмотров431

Появилась статья, представляющая новый метод обнаружения предвзятости в алгоритмах искусственного интеллекта. Этот метод не только выявляет потенциальные 偏见 (biases), но и делает это прозрачно, используя структурированные дебаты, основанные на количественных биполярных аргументационных фреймах (QBAF). В мире, где ИИ всё глубже проникает в такие области, как здравоохранение, финансы и юстиция, борьба с предвзятостью становится критически важной задачей. Давайте разберёмся, как работает этот подход, почему он важен и как он превосходит существующие решения.

Читать далее

Решение задачи коммивояжера (TSP) в реальных приложениях

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.8K

Образовательные программы компьютерных наук и информатики обязательно включают курс алгоритмов, это элегантные решения сложных проблем. Например, одна из самых интересных проблем комбинаторной оптимизации — задача коммивояжёра (TSP, travelling salesman problem). Суть в поиске самого выгодного маршрута, проходящего через указанные точки ровно по одному разу. Сложность задачи при точном решении брутфорсом составляет O(n!). И для неё тоже придумано несколько элегантных алгоритмов. Хотя поиск самого эффективного продолжается до сих пор.

В реальности уже нет коммивояжёров, путешествующих по городам, профессия ушла в прошлое. Но есть курьеры, таксисты, логисты, грузоперевозчики и просто туристы, которые хотят посетить максимальное количество достопримечательностей. То есть задача по-прежнему актуальна. Как же максимально эффективно настоящие бизнесы решают TSP в реальной жизни?

Читать далее

Будущее, в котором ИИ — герой, а не злодей

Время на прочтение24 мин
Количество просмотров1K

Эра искусственного интеллекта уже наступила — и люди, мягко говоря, в панике.

К счастью, я здесь, чтобы рассказать хорошие новости: AI не уничтожит мир, а наоборот, вполне может его спасти.

Для начала короткое описание того, что такое AI: это применение математики и программного кода для обучения компьютеров понимать, синтезировать и генерировать знания примерно так же, как это делают люди. AI — это программа, как и любая другая: она запускается, принимает входные данные, обрабатывает их и выдаёт результат. Причём output AI полезен в самых разных областях — от программирования до медицины, юриспруденции и искусства. Её владеют и контролируют люди, как и любой другой технологией.

А теперь коротко о том, чем AI не является: это не какие-то «убийственные программы» и роботы, которые внезапно оживут и решат уничтожить человечество или развалить всё вокруг, как это показывают в фильмах.

И еще короче о том, чем AI может стать: способом сделать лучше всё, что нам действительно важно.

Читать далее
1
23 ...

Вклад авторов