Обновить
791.78

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Qwen3Guard: следующий шаг в модерации и контроле контента

Время на прочтение6 мин
Охват и читатели1K

Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно. 

Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.

Читать далее

Новости

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели3.7K

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели3.2K

Я обучил небольшую языковую модель, которая отвечает на дореформенном русском как человек из XIX века.

Рассказываю, как подготовил данные, собрал синтетический корпус, обучил tiny-LLM и опубликовал её в виде чат-бота.

Читать далѣе

Как прошла международная конференция ISKE 2025 в области AI и ML

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.2K

Всем привет! С вами снова на связи Кирилл, и я только вернулся из своей недельной поездки в Китай на конференцию International Conference on Intelligent Systems and Knowledge Engineering (ISKE 2025), где я выступал с новой разработкой. Я бы хотел поделиться новыми открытиями, достижениями в области ML и ИИ. Немного раскрыть представление об AI и его применении в Китае, да и по миру в целом. Так что усаживайтесь по удобнее, заварите чаек, кофеек – и вперед читать новые инсайты!

Читать далее

ИИ-ассистент в M42: как мы в Авито ускорили построение графиков и увеличили аудиторию в Trisigma

Уровень сложностиСредний
Время на прочтение16 мин
Охват и читатели3.8K

Привет! Меня зовут Андрей Старостин, я DS-инженер в аналитической платформе в Авито. В этой статье я расскажу об устройстве и внедрении сервиса-ассистента на основе искусственного интеллекта для упрощения работы с аналитическими данными в нашем продукте M42 внутри Trisigma

Читать далее

DeepSeek-OCR + LLama4 + RAG = Революция в мире агентного OCR

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.9K

В выходные я просматривал Твиттер, чтобы узнать, что происходит в сфере ИИ. И снова DeepSeek привлек внимание всего мира.

Это не просто очередной инструмент для распознавания текста, а новая технология контекстного оптического сжатия, которая использует визуальные методы для решения проблемы обработки длинных текстов, предлагая новый подход к работе с огромными массивами информации.

Любой, кто пользовался большой языковой моделью (LLM), сталкивался с такой проблемой:

Когда вы просите модель обобщить десятки тысяч слов из конспектов конференций или научных статей, она начинает терять память.

Это происходит потому, что квадратичная сложность длины последовательности по своей сути ограничивает GPT, Gemini и Claude - чем длиннее входные данные, тем больше вычислительной мощности требуется.

Читать далее

Предопределённые векторы для обучения нейросетей с экономией памяти

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели3.6K

Одна из базовых функций систем машинного зрения состоит в классификации объектов. Для решения этой задачи традиционно применяются методы обучения с учителем (SL). Эти методы обеспечивают высокую точность, но при этом размер нейросетевой модели увеличивается с увеличением количества классов. Такая особенность ограничивает применимость SL в тех случаях, когда число классов слишком велико или заранее неизвестно.

Эксперт отдела перспективных исследований компании «Криптонит» Никита Габдуллин предложил новую методологию, позволяющую добиться одного и того же размера нейросетевой модели независимо от числа классов. Это достигается за счёт использования предопределённых векторных систем в качестве целевой конфигурации скрытого пространства (Latent Space Configuration, LSC) во время обучения.

С проблемой раздувания классов сталкиваются во многих областях — от ритейла до научных исследований. Мы рассмотрим её на задаче распознавания лиц, где каждый человек (его ID) считается отдельным классом.

Существующий подход (SL) требует, чтобы размер последнего классификационного слоя был пропорционален количеству этих ID.

Когда число идентифицируемых лиц исчисляется миллионами, параметры этого слоя становятся просто астрономическими, а модель — непрактичной из-за непомерных требований к ресурсам (в частности — к видеопамяти). Это становится существенным барьером на пути к масштабированию.

В качестве решения этой проблемы эксперт «Криптонита» предложил радикально новый метод — LSC, который устраняет прямую зависимость между размером модели и числом классов. Вместо того, чтобы заставлять сеть запоминать каждый класс во всё увеличивающемся классификационном слое, LSC учит её проецировать входные данные — например, изображения лиц — в заранее заданную, фиксированную систему векторов в абстрактном скрытом пространстве.

Читать далее

AI-агенты в аналитике: как я разработал два production-проекта за неделю

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели4.6K

За 18 часов вместо 120 создал production-ready ETL-инструмент с 30-кратным ускорением. За 6 часов вместо 40 — фреймворк статистического анализа. Экономия времени: 85-88%. Улучшение качества: +48%.

Читать далее

Нейро-дайджест: ключевые события мира AI за 4-ю неделю ноября 2025

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.4K

Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.

Неделя выдалась плотной на релизы: Claude Opus 4.5 новый лидер в кодинге, открытые GigaChat 3, Kandinsky 5.0 и другие релизы от Сбера, FLUX.2 против Nano Banana Pro, параллельно обновились Cursor и Perplexity, а в США запускают мега-проект для ускорения науки.

Всё самое важное — в одном месте. Поехали!

Читать дайджест →

Как я тестирую крупные системы, которые невозможно протестить на статичных данных

Время на прочтение6 мин
Охват и читатели4.3K

Например, в управлении транспортом статичные данные (например, сет за «типичный вторник») не дают протестировать систему в условиях праздника, крупной аварии, сессии у студентов, скидки 99% на Лабубу в крупном супермаркете и так далее. 

Что мы сделали:

Стали брать реальные данные с прода, которые выбиваются за стандартные представления.

Обезличивать их.

Использовать ML-модель для генерации сценариев, где эти данные увязываются с остальными в системе. Это типа генерации новых данных с усилением трендов и их пересечением.

То есть фактически по модели швейцарского сыра — мы имеем один статичный срез, а затем начинаем ходить в прод и искать новые дырки. Потом соединяем несколько дырок в новом слое и накладываем слои друг на друга, чтобы посмотреть, не будет ли сквозного отверстия. 

Цель — не просто нагрузить систему, а протестировать жизнеспособность архитектуры в похожих на реальные условиях. 

Очень упрощая, наши наборы тестов учатся нестандартным ситуациям с прода и включают их и в тестовые выборки данных, и в юнит-тесты, и такие ситуации не только покрываются как частные случаи, но и включаются в сложные сценарии, где 3 малозначимых отказа могут привести к аварии.  

Я думаю, что это будущее тестирования сложных систем, и мы с командой уже затащили это в автоматический пайплайн. 

Читать далее

+30% к скорости написания автотестов и сотни чек-листов в день: как мы внедряем LLM в QA

Время на прочтение8 мин
Охват и читатели6.7K

Привет! Меня зовут Владислав Миронов. Я отвечаю за внедрение LLM в процессы QA Яндекса и в этой статье расскажу, каких результатов мы достигли — от генерации тест‑кейсов и автотестов до помощи в ручном тестировании. Поделюсь не только успехами, но и тем, какие компромиссы и организационные решения понадобились, чтобы всё это заработало.

В статье покажу, как мы разрешаем противоречия между командами, уходим от «зоопарка» инструментов и строим централизованную экосистему, где качество остаётся под контролем: реальные схемы, примеры и цифры, без магии и маркетинга.

Спойлер: рассчитывать можно на многое, но и вложиться придётся основательно. Парой промптов тут, к сожалению, не обойтись.

Читать далее

Долгая дорога к DiT (часть 3)

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели3.7K

Заключительная (но ещё не последняя) статья из цикла про диффузные модели, где мы наконец отбросим примитивную модель из полносвязных слоёв и напишем работающий генератор изображений c архитектурой Diffusion Transformer (DiT). Разберёмся зачем нарезать изображения на квадратики и увидим, что произойдёт с вашей генерацией, если проигнорировать главную "слабость" трансформеров - неспособность понимать порядок.

Читать далее

ChatGPT бесполезен? Я взломал мозг ИИ с помощью простого графа. Теперь он учится сам, и это пугает

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели7.6K

В этой статье я поделюсь сверхбыстрым руководством, которое покажет, как использовать графы для автоматизации знаний, заложенных в промпты, чтобы создать мощного чат-бота-агента для вашего бизнеса или личного пользования.

Сколько бы раз я ни спрашивал ChatGPT, я не могу получить хороший ответ - нужные мне предложения так и не появляются.

Кажется, что время просто уходит в никуда, и я знаю, что вы сталкивались с такой же проблемой. Дело не в том, что промпт плохо написан, а в том, что ИИ задают плохо структурированный вопрос.

Читать далее

Ближайшие события

AI Routing Lab: машинное обучение для оптимизации сетевых маршрутов

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели9K

Каждый маршрут ведет себя по-разному в зависимости от времени суток, загрузки сети, погоды (да, это влияет на спутниковые каналы) и других факторов. Традиционная маршрутизация выбирает путь на основе метрик BGP (AS Path, MED), но эти метрики не учитывают реальную задержку и джиттер.

Читать далее

DAT: новый способ гибридного поиска в RAG с динамической настройкой альфа-параметра

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели8K

Привет, Хабр! Недавно у меня появилась задача - собрать RAG-систему для интернет-энциклопедии. В поисках решения я вышел на новый подход к гибридному RAG - “DAT: Dynamic Alpha Tuning for Hybrid Retrieval in Retrieval-Augmented Generation” (Динамическая настройка Альфа-параметра для гибридного поиска в RAG). 

Поиск по Хабру и Рунету показал, про подход DAT на русском языке еще не рассказывали, поэтому спешу поделиться находкой с вами и обсудить преимущества и недостатки этого метода. Эта статья - упрощённый пересказ научной работы. Материал будет интересен как продвинутым, так и начинающим разработчикам RAG-систем.

Читать далее

Топ-10 бесплатных нейросетей для создания и редактирования фото

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели16K

Признайтесь, бывало так, что для поста или презентации нужна идеальная картинка, а в итоге вы тратите полвечера, перескакивая между стоками, редакторами и сомнительными PNG из Google? И всё равно выходит не то, что было в голове.

С появлением нейросетей этот круг ада можно смело вычеркивать. Теперь идея появляется сначала в голове, а через пару секунд уже на экране. Хотите бизона в короне, киберпанковскую библиотеку или фэнтези-кофемашину на паровом ходу? Никаких фотографов, художников и бесконечных правок, только текст и немного фантазии.

Кстати, видели обложку с Наполеоном, который скачет верхом на динозавре и размахивает саблей, пока флаг с черепом развивается у него за спиной? Да, это не отрывок из учебника альтернативной истории. Это пример того, как нейросети умеют превращать абсолютно безумные образы в настоящие картинки.

И раз уж мы начали с эпика, давайте не тормозить. Сегодня разберём, какие нейросети могут оживить нашего француза и как ими пользоваться, даже если вы никогда не открывали Photoshop.

Пристегивайтесь, будет интересно!

Читать далее

MAESTRO — новый фреймворк для построения мультиагентных систем и цифровых ассистентов на основе LLM

Уровень сложностиСложный
Время на прочтение19 мин
Охват и читатели6.1K

Привет, Хабр! За последний год стало ясно, что использование нескольких LLM в агентном режиме приносит существенно больше пользы, чем простая сумма их компьюта по отдельности. Гибкость, распределение ролей и активное взаимодействие моделей позволяет достичь значительных успехов в самых различных задачах, включая создание полезных цифровых ассистентов.

Построением таких систем заняты многие команды по всему миру. Чтобы ускорить прогресс в этом направлении и помочь коллегам, мы в группе «Мультимодальные архитектуры ИИ» AIRI создали новый фреймворк под названием MAESTRO — Multi‑Agent Ecosystem of Task Reasoning and Orchestration. Мы представили его на конференции AI Journey 2025, которая прошла в Москве на прошлой неделе.

В этой статье нам бы хотелось поподробнее рассказать о нашей разработке, описать устройство фреймворка и дать примеры его использования.

Читать далее

Как «Спортивный помощник» на NLU закрывает более 80% обращений в чате

Время на прочтение4 мин
Охват и читатели5.5K

Привет! Меня зовут Екатерина Морозова и я менеджер продукта «Спортивный помощник». В этой статье я расскажу, как работает наш чат-бот и как мы подняли процент закрытия чатов ботом до более, чем 80%.

Все говорят LLM, а я скажу NLU. А может ли бот без LLM обеспечить высокий процент автоматизации? Да, но…

Путь Спортивного помощника начался в далеком 2022 году. О генеративных моделях тогда было мало известно, и мы стояли перед выбором решения для автоматизации обработки вопросов клиентов в службу поддержки. Кнопочные боты показывали низкую эффективность, поэтому выбор был очевиден - использовать технологии распознавания естественного языка (NLU - Natural-language understanding) для определения намерения клиента.

Читать далее

Антипаттерн LLM-приложений: Когда модель игнорирует контекст. Часть 1

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели4.9K

Всем привет! Бездумно соглашаться с любыми хотелками заказчика или начальства в технических вопросах — почти то же самое, что саботировать проект: всё это быстро превращается в тяжёлый технический долг. Да, жёсткие сроки, ограниченный бюджет и нехватка «свободных рук» — реальность, с которой приходится считаться. Но это не отменяет простой вещи: свои опасения и архитектурные риски нужно озвучивать, выносить на обсуждение и предлагать не только «работающие на сейчас», но и масштабируемые решения.

Как разработчикам нам обычно говорят: «давайте максимально быстро и топорно соберём proof‑of‑concept (PoC)». Мы собираем PoC на костылях, а дальше слышим: «отлично, теперь давайте из этого сделаем MVP». Времени на переорганизацию и реинжиниринг архитектуры никто не даёт. В итоге недели и месяцы работы превращают проект в тупиковую поделку — груду классов, методов и промптов, к которой страшно прикасаться.

С LLM эта история становится ещё болезненнее. В работе у меня было несколько показательных проектов с LLM в роли основного движка (RAG, Q&A‑системы), на которых я очень наглядно увидел, как делать не стоит. Эти «шишки» превратились в набор антипаттернов проектирования LLM‑приложений, о которых я хочу поговорить в серии статей.

В этой части — антипаттерн взаимодействия с LLM, когда модель игнорирует контекст: важные детали промпта, куски документов и даже прямые инструкции.

Представьте ситуацию: вы даёте модели текст, в котором прямо содержится ответ на вопрос, но она отвечает что‑то совсем не то. Вы прописываете инструкции, как именно нужно вести диалог и решать задачу, но они стабильно игнорируются. Вы добавляете новые чанки с данными, дописываете всё более подробные правила и уточнения — а качество ответов только падает.

Читать далее

Почему агенты НЕ пишут основную часть нашего кода

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели6.1K

Наша компания Octomind занимается созданием ИИ-агентов, но её кодовая база по-прежнему в основном пишется людьми. Мы любим LLM и используем их везде, где можем, от нашего продукта до внутренних рабочих процессов. Но, несмотря на весь хайп, ситуация далека от того, чтобы агенты писали большую часть нашего кода.

У нас есть веские причины на то, чтобы пока не присоединяться к таким компаниям, как Anthropic (генерируется 80%)Microsoft (30%) и Google (25%).  

‍‍Пока нам недостаёт в них некоторых жизненно важных элементов. В статье мы расскажем, почему это важно, и что нужно, чтобы закрыть эту нехватку.‍‍

Читать далее
1
23 ...

Вклад авторов