Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 243,77
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Как мы реализовали оптимальное обучение моделей в Luna Line. Часть 1. Классификация

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели1.7K

Привет, Хабр! Меня зовут Анастасия Белозерова, я тимлид исследовательской команды, работающей над продуктом Luna Line в VisionLabs (входит в MWS AI). Мы занимаемся созданием no-code-платформы для компьютерного зрения, которая позволяет пользователю (не программисту, а агроному, например) разметить данные, нажать на кнопку и получить идеально обученную CV-модель под свои рабочие задачи, даже если у него для этого данных всего-то 50 картинок. 

Под катом — хроники наших экспериментов по поиску «универсального рецепта» для обучения моделей под задачи классификации. Публикация про сегментацию будет чуть позже. Расскажу, какие мы выдвигали гипотезы, как их проверяли относительно поиска универсального решения и почему пересмотрели методологию экспериментов при переходе от одной задачи к другой.

Кто желает не читать, а смотреть и слушать, вот тут лежит видеозапись моего доклада по этой теме на Митапе D﹥﹤Vision. 

Но давайте сначала коротко расскажу о продукте.

Читать далее

Новости

KiSinWi — AutoML-платформа с микросервисной архитектурой и мультиагентными воркфлоу

Уровень сложностиСредний
Время на прочтение26 мин
Охват и читатели3.1K

AutoML обычно отвечает на вопрос «что победило», а хотелось бы ещё знать «почему». Поэтому я собрал платформу, где обучение нейросетей ведут LLM-агенты. Они спорят об архитектуре, собирают конфиг и запускают обучение, и каждый их шаг виден прямо в интерфейсе.

Коротко расскажу, как устроена платформа и агенты. Особый акцент в статье сделан на получаемые результаты бенчмарков на 5 стандартных датасетах и действиями мастера ноутбуков из Kaggle.

Читать дальше

Где заканчивается вызов LLM и начинается backend система: локальный RAG на FastAPI и Ollama

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели3.1K

Хотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система.

Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел.

В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями.

От LLM вызова к RAG системе

Evals: что должен знать каждый AI-инженер в 2026

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.2K

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.

Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил.

Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

Читать далее

Как оптимизировать LLM-инференс в 2026 году

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.9K

Если вы в 2026 году запускаете LLM в продакшене, то почти наверняка больше всего денег тратите на инференс. Одна неоптимизированная модель размером 70B может сжигать десятки долларов в час на нескольких A100, тогда как грамотно оптимизированный стек дает сопоставимый результат за сравнительно меньшую сумму. При активном продакшене это выливается в тысячи долларов в месяц разницы только за счет настройки инференса.

Но как это сделать?

Недавно я наткнулся на подробный гайд по оптимизации инференса на JobsByCulture. Внутри — перевод статьи + мои наблюдения и мысли поверх.

Читать далее

MLE-bench: золото взято, а доказательства остались в /tmp

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.6K

В апреле мой агент смог перешагнуть золотой порог на MLE-bench в агентских соревнованиях Berkeley RDI, а когда я решил показать «тот самый код, который взял золото» — понял, что не уверен, существует ли он вообще.

Хабр, привет! Меня зовут Георгий, и в своей первой статье на площадке я решил разобраться, что же происходило на самом деле. Цифровой детектив: с чем я преодолел планку, где этот результат теперь (спойлер: нигде) и сколько смысла в этом «золоте». Это история о том, как я расследовал собственную «победу»

Читать далее

Айсберг использования AI, или как сохранить рабочее место

Уровень сложностиСредний
Время на прочтение79 мин
Охват и читатели6.7K

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI.

Я был в такой же ситуации, когда где-то полгода назад ко мне подошёл менеджер и спросил: «Вань, а как у нас там с AI?», на что я ответил: «Ээээ... у нас всё хорошо))» и понял, что нужно максимально быстро вкатываться в современные инструменты и искать информацию, чем я и поделюсь с вами в этой статье.

Знакомо? Не переживайте, мы всё обязательно рассмотрим. К середине статьи мы научимся всем современным основам Claude Code, а к концу построим мультиагентную систему на очень интересном примере.

Читать далее

ИИ-ассистент с долговременной памятью, агентами и vision. Проблемы с Персональными Данными

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.7K

ИИ-ассистент с долговременной памятью, агентами и vision. Память с весами и забыванием, разные модели под задачу, поиск по маркетплейсам с инъекцией профиля. Проблемы с 152-ФЗ: данные уезжают за рубеж, а GigaChat не может.

Читать далее

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.5K

«Sometimes не работает как ожидается» — так выглядел наш баг-репорт на LLM-агента. Агент пропускал обязательные шаги сценария, застревал на переходах, молча менял поведение — без единого изменения с нашей стороны. Это, конечно, не баг-репорт, а пожелание призраку.

В [прошлой статье](https://habr.com/ru/articles/1049482/) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы.

Эта — про то, как с этим жить в коде, когда агентов не один, а несколько.

Читать далее

Система авто-оценки качества вебинаров на Claude Code за неделю

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели5.2K

Собрал на Claude Code конвейер авто-оценки качества вебинаров: локальная расшифровка whisper.cpp на Apple M4, LLM-судья по рубрике с цитатами и тайм-кодами, SQLite, письмо и дашборд. Главное оказалось не в промпте, а в методике: рубрика как данные, калибровка под методистов и то, чего текст расшифровки не тянет.

Читать далее

У роботов очень короткая память. Можно ли это исправить?

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели6.3K

Хабр, привет! Меня зовут Егор Черепанов. Я аспирант Центра когнитивного моделирования МФТИ и младший научный сотрудник команды «Воплощенные агенты» лаборатории когнитивных систем искусственного интеллекта AIRI. Я занимаюсь памятью у роботов и RL‑агентов, и сегодня хочу рассказать об одной из наших работ — архитектуре ELMUR, которую мы представляли в апреле на ICLR 2026.

Память у современного робота сегодня — это почти всегда контекст трансформера Vision‑Language‑Action модели, поскольку последние уже прочно закрепились как стандарт в этой области. Проблема в том, что механизм внимания имеет квадратичную сложность по длине последовательности, а значит долгосрочная память для робота будет обходиться слишком дорого, если пытаться наивно увеличивать размер контекста. 

Новая архитектура призвана решить эту проблему. О том, что у нас получилось, читайте в статье ниже.

Читать далее

Как разделить корпоративную сеть на изолированные зоны с помощью одного NGFW

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.2K

Когда в сети нет сегментации, компрометация любого узла открывает атакующему прямой путь ко всему остальному. Бухгалтерский сервер, производственная АСУ ТП, веб-приложение и рабочая станция стажёра существуют в одном пространстве — с точки зрения сетевой связности между ними нет разницы.

Сегментация решает эту проблему архитектурно: каждая зона изолирована, трафик между зонами проходит только через точку фильтрации, компрометация одного сегмента не даёт автоматического доступа к другим. В этой статье разбираем, как это реализовано в Ideco NGFW Novum версии 22 — на уровне механизмов, а не маркетинговых описаний.

Читать далее

LLM-судья для нейроразбора резюме на hh

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.8K

Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять.

Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru. Быстро выяснилось, что хороший LLM-судья — это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации.

Меня зовут Женя Орлов, я LLM Eval Lead. В этой статье расскажу, как мы проектировали систему оценки для нейроразбора резюме, почему отказались от наивных подходов и какие выводы сделали по ходу разработки.

Читать далее

Ближайшие события

graphlens: превращаем репозиторий в типизированный граф — Python, TypeScript, Go и Rust в одной модели

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

Любой инструмент для «понимания кода», которым я пользовался, рано или поздно упирался в одну из двух стен.

Первая — цикл «grep → открыть → прочитать → перейти по импорту → снова grep». Работает, но медленно, и у него нет ни малейшего представления о том, что process_order, найденный в services.py — это тот самый process_order, который вызывается из api.py, а не однофамилец из tests/. Когда этим занимается LLM-агент, он ещё и сжигает на этом тонну токенов.

Вторая стена — моноязычность. Инструмент прекрасно понимает Python, но слепнет в ту секунду, когда фронтенд на TypeScript дёргает ручку FastAPI на Python. Реальные системы полиглотны. Инструменты вокруг них — обычно нет.

graphlens — это open-source фреймворк (MIT), который спроектирован так, чтобы обойти обе стены. Он парсит исходный проект, нормализует его структуру в общий граф-IR и отдаёт этот граф вам — делайте с ним что хотите: анализ зависимостей, навигацию, поиск мёртвого кода или подачу точных ответов LLM-агенту вместо вываливания файлов в контекст.

Читать далее

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели11K

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос – ответ с опорой на документы». Однако внутренняя механика RAG – семантический поиск в сочетании с генерацией ответа на основе найденного – хорошо ложится и на другую задачу, которую традиционно решают иными методами: на рекомендации.

Цель настоящей статьи – показать, что RAG представляет собой недоиспользованный, но обоснованный инструмент для рекомендательных систем, и разобрать, на каких именно ограничениях классических рекомендателей он выигрывает и где проходят его границы. В качестве сквозного примера рассматривается рекомендательная система книг по запросу в свободной форме. При этом основным предметом рассмотрения является сам подход, а не конкретная реализация.

Читать далее

Делаем фреймворк Meta-Spider на основе мета-внимания

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели13K

Это прямое продолжение статьи "meta-attention is all you need".

Будет представлен фреймворк с заготовленным набором инструментов, который вы сможете опробовать в работе с LLM, в том числе в агентных сценариях.

Так же будут предоставлена готовая легкая обученная обвязка для моделей, один малыш (Qwen-3.5-4b) и среднячок (Granite 4.1 8B). Все их можно будет запустить через llama.cpp.

Оседлать паука

Я запускаю второй открытый бета-тест

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели11K

В феврале я публиковал первую статью про Yttri: что это за приложение, зачем я его делаю и почему мне не хватало Obsidian, Notion, почтового клиента, таск-трекера и AI-чата по отдельности.

Тогда это был первый публичный заход в бета-тестирование. Первая сотня мест ушла быстрее, чем я ожидал, а комментарии оказались полезнее любой внутренней аналитики. Люди спрашивали про локальность данных, закрытый код, запуск без Ollama, связь задач с письмами и заметками, синхронизацию, доверие к приложению и вообще про то, не слишком ли это большой комбайн.

С тех пор Yttri сильно изменился. Это уже не просто «единый интерфейс для всего», а более взрослая local-first среда: с открытыми markdown-данными, локальными моделями, агентом, почтой, задачами, заметками, финансами, записями встреч и нормальной доставкой тяжёлых AI-компонентов.

Сейчас я расширяю бета-тестирование и хочу позвать новых пользователей.

Читать далее

Защита конфиденциальных данных в облачных LLM

Время на прочтение2 мин
Охват и читатели9.9K

Защита персональных данных и коммерческой тайны при работе с облачными LLM требует многоуровневого подхода, сочетающего архитектурные, технические и организационные меры. Наиболее надежным решением является полный контроль над средой обработки данных.

Читать далее

Архитектура обмана. Как технически устроены фермы накрутки отзывов в 2026 году?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели14K

Подделка рейтингов окончательно перешла с бирж фриланса на автоматизированные конвейеры. Сегодня отзывы генерируют локальные LLM, а публикуют скрипты через антидетект-браузеры и резидентные прокси. Такая ботоферма самостоятельно формирует цифровой след: собирает cookies на сторонних сайтах, закладывает лексические ошибки в текст и подменяет отпечатки железа, чтобы система приняла профиль за живого человека с реальным провайдером.

В ответ маркетплейсы и геосервисы перестали анализировать исключительно сам текст и переключились на графовый анализ. Антифрод отслеживает микродвижения мыши, скорость скроллинга и сетевые пересечения аккаунтов. Математически идеальный рейтинг 5.0 или шаблонные тайминги публикации становятся для алгоритма прямой командой к действию. Площадка не просто удаляет сомнительные комментарии, а отправляет карточку товара в теневой бан, срезая органические показы в поиске.

Читать далее

Красота математики и ML (part 1/2): алгоритм MinHash

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели12K

Алгоритм MinHash позволяет транслировать разряжённые (sparse) бинарные векторы большой размерности в целочисленные векторы многократно меньшей размерности с сохранением информации, позволяющей оценить похожесть исходных векторов.

С алгоритмом SimHash его объединяет то, что оба они просто потрясающе красивы! Настолько, что вот прям хочется про них рассказать.

Про SimHash в следующий раз, а вот если интересно чем же мне так понравился MinHash, добро пожаловать под кат!

Ну и чем же?
1
23 ...