Обновить
777.94

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Время на прочтение6 мин
Охват и читатели5.1K

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.

В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

Читать далее

Почему ОЗУ так подорожала в конце 2025-го и стоит ли сейчас апгрейдиться

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели30K

Осенью 2025-го многие, как и я, открыли любимый магазин железа, чтобы «по-быстрому взять ещё 32–64 ГБ DDR5 под игры, IDE и пару Docker-контейнеров» — и закрыли вкладку с лёгким культурным шоком. Память, которая летом стоила «адекватных» денег, внезапно стала стоить почти как видеокарта среднего уровня.

Если коротко, это не «жадность магазинов», а последствия довольно сложной перестройки всего рынка DRAM под ИИ-серверы и HBM-память. В статье разберёмся, что происходит на фабриках памяти, почему страдают именно ПК-модули, чего ждать в 2026-м и как принимать решения об апгрейде, если вы геймер, разработчик или просто любитель собирать железо.

Читать далее

Экономический тупик: может ли ИИ вызвать нехватку талантов?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели6.4K

Недавно одна исследовательская организация обнаружила, что к 2035 году в Великобритании из-за ИИ может быть потеряно до трех миллионов низкоквалифицированных рабочих мест. В настоящее время циркулирует множество подобных исследований, утверждающих, что огромные пласты мирового рынка труда будут заменены ИИ, но все они, кажется, упускают нечто совершенно важное - влияние, которое окажет такое внедрение ИИ.

Читать далее

От Telegram-бота к AI-агенту: как собрать своего «исполнителя задач» на Python в 2025-м

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.7K

В 2023–2024 почти каждый второй pet-проект с LLM выглядел как чатик: ты спрашиваешь — модель отвечает, иногда с RAG, иногда без. В 2025-м тренд сместился: на рынке всё чаще говорят про AI-агентов — системы, которые не просто болтают, а сами инициируют действия, ходят в API, планируют шаги и живут в продакшене как часть инфраструктуры.

В прошлых проектах я уже собирал Telegram-ботов: от простого «ресепшена» для малого бизнеса на aiogram 3.x до RAG-консультанта по железу «Кремний» на бесплатном стеке Groq + sentence-transformers. Логичный следующий шаг — научить бота не только отвечать в диалоге, но и самостоятельно выполнять задачи в фоне: следить за ценами на железо, мониторить статусы заказов или пинговать при аномалиях.

В этой статье разберём на практике минимальный AI-агент вокруг Telegram-бота: архитектуру, стек и рабочий код на Python. Получится небольшой, но честный «исполнитель задач», которого можно дорастить до чего-то полезного в проде.

Собираем AI-агента для бота

InfoFlood: как информационная перегрузка превращается в универсальный джейлбрейк для LLM

Время на прочтение4 мин
Охват и читатели4.3K

В июне этого года на arXiv вышла работа «InfoFlood: Jailbreaking Large Language Models with Information Overload»

В исследовании авторы обнаружили новую уязвимость в системах безопасности больших языковых моделей: когда вредоносный запрос перегружается сложной лингвистической структурой, фильтры безопасности перестают его распознавать, хотя сама модель продолжает понимать суть и выдаёт вредоносный ответ.

В отличие от большинства существующих джейлбрейков, InfoFlood не использует префиксов, суффиксов или шаблонных триггеров. Вместо этого он полностью переписывает запрос, сохраняя его вредоносное намерение, но маскируя его за избыточной информацией, уточнениями и гипотетическими сценариями. Авторы называют это «информационной перегрузкой» (Information Overload).

Читать далее

Как мы учим Яндекс Карты предупреждать о манёврах: без использования LLM, но с помощью водителей

Время на прочтение14 мин
Охват и читатели9.3K

Что может быть проще, чем сгенерировать голосовую подсказку для навигатора? Считаем угол поворота — озвучиваем манёвр. Именно так наша система и работала годами, пока не обросла таким количеством эвристик и региональных «костылей», что её поддержка стала дороже разработки. Добавление нового правила для одной страны ломало логику в другой, а простая задача «отличить плавный изгиб от поворота» превращалась в детектив.

Меня зовут Дмитрий, и я руковожу ML‑разработкой в команде автонавигации Яндекс Карт. Вместе с моим коллегой Альбертом Юсуповым (@al‑iusupov) в этой статье мы поделимся историей полного переосмысления системы генерации дорожных аннотаций. Расскажем, почему решили отказаться от десятков хитрых условий в коде, а также почему заманчивая идея отдать всё на откуп большим нейросетям (VLM, LLM) провалилась. И, наконец, как пришли к элегантному решению: создали уникальный датасет с помощью сотен водителей‑экспертов и обучили быструю и точную ML‑модель, которая работает по принципу «меньше, но лучше».

Читать далее

Автоматизируем машинное обучение с помощью ИИ-агентов

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели4.7K

Решая соревнования на Kaggle начинаешь замечать паттерн. Baseline сделать просто: загрузить данные, запустить CatBoost или LightGBM, получить baseline метрику. Это занимает полчаса. Но чтобы попасть в топ решений, нужно перепробовать десятки вариантов препроцессинга, сотни комбинаций фичей и тысячи наборов гиперпараметров.

Существующие AutoML системы не сильно помогают. Они работают по фиксированному сценарию: пробуют предопределенный набор алгоритмов, выбирают лучший по метрике и возвращают результат. AutoGluon обучает несколько моделей и делает многоуровневый ансамбль, но каждый запуск начинается с нуля. TPOT генерирует pipeline через генетический алгоритм, но не учится на ошибках предыдущих запусков.

Главная проблема в том, что эти системы не рассуждают. Они не анализируют почему конкретный подход сработал или провалился. Они не адаптируются к специфике задачи. Они не накапливают опыт между запусками. Каждая новая задача для них как первая.

Человек работает иначе. Если дата-саентист видит несбалансированные классы, он сразу знает что нужна стратификация и подбор порога. Если видел похожую задачу раньше, применяет то, что сработало тогда. Если первая попытка провалилась, анализирует почему и пробует другой подход.

С появлением языковых моделей появилась возможность создать систему, которая работает ближе к человеку. LLM умеют анализировать данные, рассуждать о выборе методов и учиться на примерах. Но одна модель недостаточна. Она может пропустить очевидную ошибку или зациклиться на неправильном подходе. Нужна архитектура, которая позволит системе проверять саму себя и накапливать опыт.

Читать далее

Как сжимать языковые модели без дообучения

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.5K

Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.

Читать далее

LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели6.3K

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.

Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим несколько самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

Здесь будет про Langfuse, Phoenix, OpenLIT, Langtrace, LangWatch и Lunary. Про оценку (evaluations или evals) здесь не будет, но обязательно скоро будет отдельная статья и про это.

Поехали!

Читать далее

Огромный гайд: продвинутые советы и хитрости для работы с Gemini CLI и другими AI CLI утилитами

Уровень сложностиПростой
Время на прочтение67 мин
Охват и читатели7.4K

Команда AI for Devs подготовила перевод большого гайда о скрытых возможностях и продвинутых техниках работы с Gemini CLI. Если для вас терминал — рабочий дом, то этот материал покажет, как превратить Gemini CLI в полноценного ИИ-агента, который автоматизирует рутину, подключается к внешним сервисам и расширяется под любые задачи.

Читать далее

GPT 5.1 учится эмпатии, Opus перестает сжигать лимиты: главные события ноября в ИИ

Время на прочтение30 мин
Охват и читатели7.6K

Иногда кажется, что у Сэма Альтмана, Сундара Пичаи и Дарио Амодея есть общий чат в Telegram, где они договариваются, чем занять AI-энтузиастам выходные. Выбирают одну неделю месяца и выстреливают всё разом. Не успели мы привыкнуть к предыдущим версиям, как индустрия синхронно шагнула в следующее поколение. GPT-5.1 с адаптивным мышлением, Gemini 3.0 с интерактивным режимом, Grok 4.1 с эмоциональным интеллектом и просто долгожданный Claude Opus 4.5 — всё это свалилось на нас практически одновременно.

Параллельно с битвой гигантов продолжается тихая революция в инструментах: IDE становятся агентными, а научные открытия всё чаще делегируются алгоритмам. Материалов много, новинок ещё больше, так что обойдемся без долгих прелюдий. Поехали разбирать релизный хаос.

Читать далее

Разрабатываю MCP интеграции к платформе AI агентов — ключевые моменты

Время на прочтение4 мин
Охват и читатели6.1K

AI технологии меняются так быстро, что каждые несколько месяцев задаешься вопросом: чем сейчас лучше всего заняться в этой индустрии? И ответ каждый раз новый.

Я недавно понял, что сейчас самое время заняться MCP — протоколом контекста моделей, и открыть возможности внешних интеграций для моих AI агентов. По мере того, как растет количество публично доступных MCP серверов, разница между агентом с MCP-адаптером и без такового приближается к разнице между компьютером с интернетом и без.

Инициатива OpenAI, которые адаптировали MCP для своей платформы приложений внутри ChatGPT, произвела на меня определенное впечатление, и я проделал довольно основательный эксперимент (на трех облачных H200 и DeepSeek V3.2-Exp), показавший, что основной функционал такой платформы можно воспроизвести усилиями одного разработчика.

Сам эксперимент - в этом видео:

Читать далее

Хвост, направленный к солнцу! Что на самом деле скрывает межзвездный гость 3I/ATLAS?

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели22K

Снимки межзвездного объекта 3I/ATLAS, сделанные в течение ноября 2025 года (уже после прохождения им перигелия), продемонстрировали каплевидную форму его комы, которая вытянута примерно на одну угловую минуту в сторону Солнца.

В этот же период система отслеживания JPL Horizons зафиксировала у 3I/ATLAS наличие негравитационного ускорения. Его величина составляет малую долю (порядка Δ=0,0002) от гравитационного ускорения, создаваемого Солнцем.

Согласно последним данным JPL Horizons, это негравитационное ускорение изменяется обратно пропорционально квадрату гелиоцентрического расстояния (расстояния между объектом и Солнцем) - в точности так же, как и само солнечное притяжение. Это означает, что соотношение между этими двумя ускорениями остается неизменным на всем протяжении орбиты 3I/ATLAS. При этом основная составляющая негравитационного ускорения направлена радиально, прочь от Солнца.

Читать далее

Ближайшие события

«Ты не пройдёшь!»: как мы учили нейросеть искать патологии на КТ, обучая её только на норме. Наш опыт на ЛЦТ-2025

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели4.4K

Привет, Habr!

Знаете, как обычно проходят будни исследователя в AI? Сидишь, читаешь статьи, пьёшь восьмую кружку кофе и пытаешься уговорить модель наконец‑то сойтись. А потом кто‑то из коллег кидает в чат ссылку: «Ребята, тут хакатон. „Лидеры цифровой трансформации 2025“. По медицине. Пойдём?».

Ну, а мы что? Мы пошли.

Мы — это три исследователя из группы Foundation Models лаборатории «Сильный ИИ в медицине» Института AIRI. Базируемся в Москве, любим большие модели и сложные задачи. Нам достался, возможно, один из самых интересных треков: «Сервис для выявления компьютерных томографий органов грудной клетки без патологий».

Казалось бы, что сложного? Но тут дьявол в деталях. О них и хотелось бы рассказать подробнее.

Читать далее

Оркестрация в мультиагентных системах

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели4.9K

Привет, Хабр! ИИ-агенты и производные от них стремительно вошли в повседневную рутину разработки, зажигая глаза менеджеров и добавляя головной боли архитекторам. И если с одиночным агентом в целом никаких проблем не возникает, то когда агентов становится много, возникает настоящая проблема: как ими управлять? В этой статье попробуем разобраться в основных подходах к созданию управляющего слоя в такой системе, разберём на примере, почему не все очевидные подходы будут работать и какие классические архитектурные паттерны актуальны в новой моде. И, конечно же, расскажу, как это работает на практике в Домклик. Будет интересно!

Читать далее

LatentMAS: Секрет AI-агентов, которые думают без слов, работают точнее и экономят до 80% токенов

Уровень сложностиПростой
Время на прочтение18 мин
Охват и читатели4.1K

Классические AI-агенты общаются текстом — это дорого и медленно. LatentMAS раскрывает секрет "безмолвного" общения: агенты обмениваются "мыслями" напрямую через общую латентную память (KV-кэш). Разбираемся, как эта архитектура позволяет добиться двузначного прироста точности и радикально сократить расходы на токены.

Читать далее

Как я внедрил агента в бекенд-прод для решения рутинных задач

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели7.8K

TL;DR

Мы собрали рабочего ИИ‑агента‑разработчика, который сам анализирует задачи в Jira, уточняет детали, пишет код, запускает сборку, фиксит ошибки, создаёт MR в GitLab и отправляет его человеку на ревью. Он работает параллельно на нескольких задачах, благодаря чему суммарное время выполнения пачки задач падает почти втрое. Команда избавилась от рутины, а скорость разработки выросла без расширения штата.

Использовали: Ollama + Qwen3 Coder, PostgreSQL, Docker, GitLab/Jira API, систему строгих JSON‑действий.

Столкнулись с контекстом, «галлюцинациями», GPU и самовольными правками кода — всё решаемо архитектурой.

ИИ не заменяет разработчиков, он снимает тупую монотонную работу и экономит деньги.

Читать далее

RAG-помощник для команды саппорта своими руками

Время на прочтение9 мин
Охват и читатели8.8K

Привет! Меня зовут Владимир Дробот, я SRE-лид и руководитель центра техподдержки кластера рекламных технологий компании МТС Web Services. Наша команда отвечает за вторую линию саппорта: мы разбираем сложные инциденты, ищем корни проблем и передаем разработчикам те баги, которые упираются в код или архитектуру. 

Поиск нужной инструкции в заросшей документации Confluence и Jira — головная боль для многих команд техподдержки.Чтобы повысить эффективность работы, мы решили сделать собственного ИИ-помощника. Под катом расскажу, как нам удалось довести проект до прода, совмещая его с ежедневной рутиной, и что мы поняли после его реализации.

Читать далее

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.6K

Привет, Хабр! Мы – Вадим Чернышев и Михаил Никитин из команды Tevian. Сегодня, в рамках задачи Face Antispoofing, мы разберем, как один «хороший и легкий», но бездумно добавленный домен может убить обобщающую способность вашей нейросети, и что с этим можно сделать.

Читать далее

Как свергнуть короля: формула для линейной альтернативы Трансформеру без побочных эффектов

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели8K

Привет! На связи Андрей Аргаткин, руководитель научной группы исследований эффективных архитектур нейронных сетей ИМШ ВШЭ. Я хочу рассказать о нашем текущем исследовании в рамках совместного образовательного проекта с VK. В ходе исследования мы надеемся выделить волшебную формулу из недавней архитектуры DANet (1, 2) и экстраполировать её на широкий спектр других моделей, что позволит им стать такими же крутыми по качеству, но гораздо более быстрыми и эффективными, чем бессменный король мира нейронных сетей — Трансформер. Эта формула должна избавить от побочных эффектов предыдущих архитектур, пытавшихся стать ему заменой. Но сначала поговорим, зачем всё это вообще нужно.

Читать далее

Вклад авторов