Обновить
1024K+

Машинное обучение *

Основа искусственного интеллекта

1 249,66
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

ИИ может менять мнение человека. Мы проверили это на моральных дилеммах

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.4K

Допустимо ли пожертвовать одним человеком, чтобы спасти нескольких? Стоит ли вмешиваться, если любой выбор приведёт к ущербу? У таких задач нет ответа в формате «правильно или неправильно». Есть личная позиция — результат ценностей, культурных норм и прошлого опыта. Эта позиция может меняться, когда рядом появляется тот, кто говорит уверенно, последовательно и убедительно. Раньше в этой роли выступал другой человек, сегодня всё чаще — языковая модель.

Мы в Лаборатории нейронаук и поведения человека Сбера проверили, способен ли ИИ влиять на моральные решения людей. Препринт исследования опубликован на arXiv.org.

Читать далее

Новости

Автоматизация расстановки стеллажей: с 2–3 дней ручного расчета до 15 минут

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели3.7K

Дано: компания (наш клиент) продает стеллажные системы. Менеджер по продажам получает от клиента план склада в DXF или DWG. На выходе нужны варианты расстановки стеллажей, спецификация и чертёж — эти материалы сразу уходят в коммерческое предложение. До автоматизации этот путь занимал 2–3 дня инженерной работы на типовом объекте, и любая правка клиента запускала пересчёт почти с нуля.

Колонна, ширина проезда и тип балки на конкретном ярусе зависят друг от друга. Сдвинул ряд из-за колонны — изменилось число секций, поменялись балки, пересчиталась нагрузка на раму, смету нужно пересчитывать. “Нарисовать прямоугольники на плане и посчитать рамы” — это сильное упрощение реальной задачи, в которой каждая цифра тянет за собой остальные.

В продажах стеллажных систем клиент выбирает того подрядчика, кто быстро считает. Того, кто сделает расчет, за 2–3 дня заказчик. Скорость составления КП и пресейла  прямо влияет на возможность продать или принять участие в тендере, а так же на загрузку инженерной команды, которую на этапе продажи приходится дёргать на каждый входящий план.

Читать далее

Разбираемся в ML без воды: от базы до Attention. Часть 12: Понижение размерности и PCA

Уровень сложностиСложный
Время на прочтение8 мин
Охват и читатели3.5K

В предыдущей части мы разобрали градиентный бустинг — финального босса в классическом обучении с учителем. Мы научились строить мощные ансамбли, которые выжимают максимум из табличных данных. Кажется, что на этом можно ставить точку и прыгать в современный мир нейросетей и Deep Learning.

Но до этого момента мы жили в идеальной теплице: у нас всегда была разметка (тот самый target, который нужно предсказать), а количество признаков в таблицах было разумным. В реальности все иначе. Данных часто слишком много, в них куча шума, а правильных ответов никто не разметил.

В этой части мы закроем очередную проблему в классическом ML — столкнемся лицом к лицу с проклятием размерности (curse of dimensionality). Поймем, как сжимать многомерные пространства, не теряя важный смысл, и как заставить машину самостоятельно группировать объекты в кластеры, вообще не имея готовых классов.

Читать далее

От золотого сечения до троичности Брусенцова: одно семейство числовых форматов от 2 до 1024 бит

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели3.9K

Почему bfloat16 стал стандартом для обучения нейросетей? Не потому, что он оптимален как число, — а потому что под него десять лет затачивали GPU и TPU. Снимаем этот эффект железа и смотрим на числа честно.

В статье: семейство форматов GoldenFloat (GF4, GF8, GF16, GF32, GF64, GF1024) с основанием φ = (1+√5)/2; метрика «бит на значение» (GF16 = 2.5725 обходит bf16 = 2.6135 на одном корпусе); и неожиданный мост к троичной машине «Сетунь» Н. П. Брусенцова — три состояния −1/0/+1 как предельная точка той же φ-лестницы.

Без обещаний золотых гор: что измерено — измерено, что только спека — помечено.

Читать про φ-форматы

Зачем GenAI-ассистенту platform logic: как управлять источниками, evidence и ответами

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели4.9K

GenAI-ассистент может довольно быстро начать отвечать "по теме": находить релевантные фрагменты, собирать уверенный текст и создавать ощущение, что система уже работает.

Если подключить LLM к корпоративным документам через RAG, подобрать параметры поиска, немного почистить контекст и добавить хороший prompt, первые результаты часто выглядят обнадеживающе. Пользователи начинают пробовать систему, появляются первые метрики использования, а сама идея быстро кажется готовой к расширению.

Но для продуктового контура этого недостаточно.

Проблема не только в том, может ли модель сформировать релевантный ответ. Проблема в том, является ли поведение системы ожидаемым, проверяемым и управляемым.

Можно получить ассистента, который уверенно отвечает на вопросы, но при этом плохо контролируется в деталях: какие источники он использовал, достаточно ли найденной информации для ответа, можно ли показывать ответ пользователю, где безопаснее остановиться и дать ограниченный ответ (fallback), как проверяется качество, кто управляет ссылками на источники и что происходит при неполных, устаревших или плохо структурированных данных.

В этой статье я разбираю не готовый "рецепт правильного GenAI-ассистента", а результаты и выводы из проверки на малом контролируемом прототипе: какие решения появляются вокруг GenAI-системы, когда она должна не просто отвечать, а вести себя управляемо.

Фокус будет не на том, как "улучшить prompt" или выбрать модель побольше, а на том, как система управляет ответом после retrieval:

Читать далее

Как мы реализовали оптимальное обучение моделей в Luna Line. Часть 1. Классификация

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5K

Привет, Хабр! Меня зовут Анастасия Белозерова, я тимлид исследовательской команды, работающей над продуктом Luna Line в VisionLabs (входит в MWS AI). Мы занимаемся созданием no-code-платформы для компьютерного зрения, которая позволяет пользователю (не программисту, а агроному, например) разметить данные, нажать на кнопку и получить идеально обученную CV-модель под свои рабочие задачи, даже если у него для этого данных всего-то 50 картинок. 

Под катом — хроники наших экспериментов по поиску «универсального рецепта» для обучения моделей под задачи классификации. Публикация про сегментацию будет чуть позже. Расскажу, какие мы выдвигали гипотезы, как их проверяли относительно поиска универсального решения и почему пересмотрели методологию экспериментов при переходе от одной задачи к другой.

Кто желает не читать, а смотреть и слушать, вот тут лежит видеозапись моего доклада по этой теме на Митапе D﹥﹤Vision. 

Но давайте сначала коротко расскажу о продукте.

Читать далее

KiSinWi — AutoML-платформа с микросервисной архитектурой и мультиагентными воркфлоу

Уровень сложностиСредний
Время на прочтение26 мин
Охват и читатели5.2K

AutoML обычно отвечает на вопрос «что победило», а хотелось бы ещё знать «почему». Поэтому я собрал платформу, где обучение нейросетей ведут LLM-агенты. Они спорят об архитектуре, собирают конфиг и запускают обучение, и каждый их шаг виден прямо в интерфейсе.

Коротко расскажу, как устроена платформа и агенты. Особый акцент в статье сделан на получаемые результаты бенчмарков на 5 стандартных датасетах и действиями мастера ноутбуков из Kaggle.

Читать дальше

Локальный RAG без магии: sources, timings, request_id и отказ от генерации

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели5.1K

Хотел разобраться где заканчивается простой вызов локальной LLM и начинается backend система.

Сначала всё выглядело просто: frontend отправляет вопрос, FastAPI принимает POST /ask, backend вызывает локальную модель через Ollama и возвращает ответ. Но стало понятно: для помощника по документации этого мало. Модель отвечает, но непонятно на какие документы она опирается, какие фрагменты попали в prompt, сколько времени занял каждый этап и что делать, если индекс устарел.

В статье показываю не "как вообще устроен RAG", а путь от простого вызова локальной LLM к небольшому backend/RAG-проекту с API контрактом, request_id, логированием, sources, timings, rebuild index, negative tests и честными ограничениями.

От LLM вызова к RAG системе

Evals: что должен знать каждый AI-инженер в 2026

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.3K

В июле 2025 coding-агент в Replit проигнорировал явный запрет на изменения файлов (code-freeze) и удалил production-базу – данные примерно 1200 компаний, позже заявив, что «сделал катастрофическую ошибку». Operator от OpenAI, которого попросили всего лишь найти дешевые яйца, сам купил их на Instacart на $31.43 – в обход собственного подтверждения покупки. Официальный чатбот мэрии Нью-Йорка советовал предпринимателям нарушать закон: говорил, что можно забирать чаевые работников и отказывать арендаторам с жилищными ваучерами Section 8. Эти и другие инциденты сведены в обзоре «Towards a Science of AI Agent Reliability», где каждый разделен по характеру сбоя: тяжесть вреда, нарушение полномочий, плохая калибровка.

Ни один из этих случаев не всплыл бы в обычном демо. И ни один бенчмарк про них заранее бы не предупредил.

Публичные бенчмарки полезны – по ним видно, какая модель в целом сильнее и куда движется фронтир. Но они отвечают на другой вопрос. Высокий балл на лидерборде не говорит, справляется ли система с вашими задачами: для этого нужны собственные evals и бенчмарки под конкретные задачи. А часть аспектов – безопасность, устойчивость к злоупотреблениям, поведение под атакой – бенчмарком в принципе не измерить; в этих случаях работает red-teaming. Современная AI-система – это модель в симбиозе с retrieval, tools, memory, routing, prompts, state, permissions. Вы ответственны за всю систему и хотите понимать, как хорошо работает именно она, в то время как публичный бенчмарк измеряет только модель.

Читать далее

Как оптимизировать LLM-инференс в 2026 году

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели11K

Если вы в 2026 году запускаете LLM в продакшене, то почти наверняка больше всего денег тратите на инференс. Одна неоптимизированная модель размером 70B может сжигать десятки долларов в час на нескольких A100, тогда как грамотно оптимизированный стек дает сопоставимый результат за сравнительно меньшую сумму. При активном продакшене это выливается в тысячи долларов в месяц разницы только за счет настройки инференса.

Но как это сделать?

Недавно я наткнулся на подробный гайд по оптимизации инференса на JobsByCulture. Внутри — перевод статьи + мои наблюдения и мысли поверх.

Читать далее

MLE-bench: золото взято, а доказательства остались в /tmp

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.1K

В апреле мой агент смог перешагнуть золотой порог на MLE-bench в агентских соревнованиях Berkeley RDI, а когда я решил показать «тот самый код, который взял золото» — понял, что не уверен, существует ли он вообще.

Хабр, привет! Меня зовут Георгий, и в своей первой статье на площадке я решил разобраться, что же происходило на самом деле. Цифровой детектив: с чем я преодолел планку, где этот результат теперь (спойлер: нигде) и сколько смысла в этом «золоте». Это история о том, как я расследовал собственную «победу»

Читать далее

Айсберг использования AI, или как сохранить рабочее место

Уровень сложностиСредний
Время на прочтение79 мин
Охват и читатели7.3K

Привет, Хабр! Мне грустно читать посты о том, как руководители давят на сотрудников по ускорению интеграции AI в рабочие процессы и ставят строгие KPI.

Я был в такой же ситуации, когда где-то полгода назад ко мне подошёл менеджер и спросил: «Вань, а как у нас там с AI?», на что я ответил: «Ээээ... у нас всё хорошо))» и понял, что нужно максимально быстро вкатываться в современные инструменты и искать информацию, чем я и поделюсь с вами в этой статье.

Знакомо? Не переживайте, мы всё обязательно рассмотрим. К середине статьи мы научимся всем современным основам Claude Code, а к концу построим мультиагентную систему на очень интересном примере.

Читать далее

ИИ-ассистент с долговременной памятью, агентами и vision. Проблемы с Персональными Данными

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5.9K

ИИ-ассистент с долговременной памятью, агентами и vision. Память с весами и забыванием, разные модели под задачу, поиск по маркетплейсам с инъекцией профиля. Проблемы с 152-ФЗ: данные уезжают за рубеж, а GigaChat не может.

Читать далее

Ближайшие события

Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.7K

«Sometimes не работает как ожидается» — так выглядел наш баг-репорт на LLM-агента. Агент пропускал обязательные шаги сценария, застревал на переходах, молча менял поведение — без единого изменения с нашей стороны. Это, конечно, не баг-репорт, а пожелание призраку.

В [прошлой статье](https://habr.com/ru/articles/1049482/) я разбирала, почему классический QA ломается на LLM: нет одного эталонного ответа, один и тот же тест плавает от прогона к прогону, зелёный прогон ничего не гарантирует. Это была статья про осознание проблемы.

Эта — про то, как с этим жить в коде, когда агентов не один, а несколько.

Читать далее

У роботов очень короткая память. Можно ли это исправить?

Уровень сложностиСредний
Время на прочтение21 мин
Охват и читатели6.4K

Хабр, привет! Меня зовут Егор Черепанов. Я аспирант Центра когнитивного моделирования МФТИ и младший научный сотрудник команды «Воплощенные агенты» лаборатории когнитивных систем искусственного интеллекта AIRI. Я занимаюсь памятью у роботов и RL‑агентов, и сегодня хочу рассказать об одной из наших работ — архитектуре ELMUR, которую мы представляли в апреле на ICLR 2026.

Память у современного робота сегодня — это почти всегда контекст трансформера Vision‑Language‑Action модели, поскольку последние уже прочно закрепились как стандарт в этой области. Проблема в том, что механизм внимания имеет квадратичную сложность по длине последовательности, а значит долгосрочная память для робота будет обходиться слишком дорого, если пытаться наивно увеличивать размер контекста. 

Новая архитектура призвана решить эту проблему. О том, что у нас получилось, читайте в статье ниже.

Читать далее

Как разделить корпоративную сеть на изолированные зоны с помощью одного NGFW

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели8.5K

Когда в сети нет сегментации, компрометация любого узла открывает атакующему прямой путь ко всему остальному. Бухгалтерский сервер, производственная АСУ ТП, веб-приложение и рабочая станция стажёра существуют в одном пространстве — с точки зрения сетевой связности между ними нет разницы.

Сегментация решает эту проблему архитектурно: каждая зона изолирована, трафик между зонами проходит только через точку фильтрации, компрометация одного сегмента не даёт автоматического доступа к другим. В этой статье разбираем, как это реализовано в Ideco NGFW Novum версии 22 — на уровне механизмов, а не маркетинговых описаний.

Читать далее

LLM-судья для нейроразбора резюме на hh

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели6.9K

Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять.

Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru. Быстро выяснилось, что хороший LLM-судья — это отдельный продукт со своими рубриками, датасетами, метриками качества и стоимостью эксплуатации.

Меня зовут Женя Орлов, я LLM Eval Lead. В этой статье расскажу, как мы проектировали систему оценки для нейроразбора резюме, почему отказались от наивных подходов и какие выводы сделали по ходу разработки.

Читать далее

graphlens: превращаем репозиторий в типизированный граф — Python, TypeScript, Go и Rust в одной модели

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели12K

Любой инструмент для «понимания кода», которым я пользовался, рано или поздно упирался в одну из двух стен.

Первая — цикл «grep → открыть → прочитать → перейти по импорту → снова grep». Работает, но медленно, и у него нет ни малейшего представления о том, что process_order, найденный в services.py — это тот самый process_order, который вызывается из api.py, а не однофамилец из tests/. Когда этим занимается LLM-агент, он ещё и сжигает на этом тонну токенов.

Вторая стена — моноязычность. Инструмент прекрасно понимает Python, но слепнет в ту секунду, когда фронтенд на TypeScript дёргает ручку FastAPI на Python. Реальные системы полиглотны. Инструменты вокруг них — обычно нет.

graphlens — это open-source фреймворк (MIT), который спроектирован так, чтобы обойти обе стены. Он парсит исходный проект, нормализует его структуру в общий граф-IR и отдаёт этот граф вам — делайте с ним что хотите: анализ зависимостей, навигацию, поиск мёртвого кода или подачу точных ответов LLM-агенту вместо вываливания файлов в контекст.

Читать далее

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Уровень сложностиСложный
Время на прочтение11 мин
Охват и читатели11K

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос – ответ с опорой на документы». Однако внутренняя механика RAG – семантический поиск в сочетании с генерацией ответа на основе найденного – хорошо ложится и на другую задачу, которую традиционно решают иными методами: на рекомендации.

Цель настоящей статьи – показать, что RAG представляет собой недоиспользованный, но обоснованный инструмент для рекомендательных систем, и разобрать, на каких именно ограничениях классических рекомендателей он выигрывает и где проходят его границы. В качестве сквозного примера рассматривается рекомендательная система книг по запросу в свободной форме. При этом основным предметом рассмотрения является сам подход, а не конкретная реализация.

Читать далее

Делаем фреймворк Meta-Spider на основе мета-внимания

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели13K

Это прямое продолжение статьи "meta-attention is all you need".

Будет представлен фреймворк с заготовленным набором инструментов, который вы сможете опробовать в работе с LLM, в том числе в агентных сценариях.

Так же будут предоставлена готовая легкая обученная обвязка для моделей, один малыш (Qwen-3.5-4b) и среднячок (Granite 4.1 8B). Все их можно будет запустить через llama.cpp.

Оседлать паука
1
23 ...