Все потоки
Поиск
Написать публикацию
Обновить
830.5

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Deep Think with Confidence (DeepConf): уверенные рассуждения с ранней остановкой

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров627

На этой неделе разбираем методику Deep Think with Confidence (DeepConf) — подход к рассуждениям LLM, который измеряет локальную уверенность модели по ходу генерации и использует её для ранней остановки низкокачественных трасс, а также для взвешенной агрегации ответов офлайн. DeepConf не требует дообучения модели и легко встраивается в существующие inference‑стеки, при этом одновременно:

- Повышает точность на сложных бенчмарках (до 99.9% на AIME 2025 с GPT‑OSS‑120B),

- Существенно сокращает вычисления за счёт раннего отсечения «плохих» цепочек (до −84.7% токенов).

Читать далее

Почему бокс — это мультиагентная система

Время на прочтение10 мин
Количество просмотров473

Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.

В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. И да, сходу со старта: это, конечно же, легкая и ироничная статья, к которой не нужно относиться серьезно — это чистый сарказм и попытка натянуть мультиагентную сову на мультиагентный боксерский глобус, а все приведенные аналогии между боксом и агентами — лишь художественный вымысел. ツ

Итак, поговорим про system design бокса, про reinforcement learning, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation агентов и многое другое.

Читать далее

Как LLM экономит на интеллекте, и как с этим бороться

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров4.2K

Вы достаточно умны, чтобы сформулировать задачу, способную, как вам кажется, изменить мир. Лучший инструмент — топовые LLM: они помогают формализовать проблему, выбрать подходы, нагенерировать гипотезы, проверить их и собрать итог. И вот у вас — внутренне логичная, красивая, последовательная… и абсолютно неверная конструкция: компиляция известных фактов, галлюцинаций модели и ваших скрытых ожиданий. Проверить это на практике нельзя, поставить чистый эксперимент — тоже, и внезапно всё это начинает выглядеть как бред.

Что произошло по дороге?

Читать далее

Научный «дипфейк»? Как галлюцинации нейросетей — и другие проблемы — просачиваются в академические статьи

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3K

Нейронки периодически оказывают пользователям медвежью услугу и уверенно (инфа сотка!) выдают в ответ на запрос правдоподобные фейки. Если речь идет о журнальных статьях на тему «что почитать этим летом», получается веселый конфуз.

Совсем другое дело — если «срезать углы» с помощью нейросети хочет юрист, ученый или эксперт, пишущий книгу в жанре технической литературы.

Мы в Beeline Cloud решили посмотреть, какие прецеденты с галлюцинациями (и другие сложности) уже зафиксированы и что на этот счет думают ученые.

Читать далее

Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

Время на прочтение4 мин
Количество просмотров2.3K

Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.

Читать далее

Промт: как получать лучшие результаты в Midjourney

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.3K

Доброго времени суток, «Хабр»!

Не так давно я рассказывал про промты для нейросетей, которые способны генерировать фотографии и видео. Да и можно вспомнить, что у меня выходили статьи про Krea AI и Playground AI, которые тоже являются инструментами для работы с изображениями. В этой статье мной было принято решение немного углубиться в части генерации фотографий и рассмотреть одну из более популярных моделей, предназначенных для этого, — Midjourney. Точнее как, сегодня мы поговорим о некой конкретике и изюминке в промтах для этой нейросети, а также узнаем (а некоторые вспомнят), как их грамотно составлять.

Итак, присаживаемся поудобнее, достаем свои кисточки, кхм, точнее достаем вкусняшки, ну а я перехожу к своему повествованию.

Читать далее

Как работает память: что происходит в мозге, когда мы забываем пароль от Wi-Fi

Уровень сложностиСложный
Время на прочтение4 мин
Количество просмотров8K

Когда мозг отказывается вспомнить пароль от Wi-Fi, это не просто досадная мелочь. За этой банальной ситуацией стоят сложнейшие механизмы памяти, работы нейронных сетей и биохимических процессов. В статье я попробую объяснить, почему мы забываем такие вещи, что реально происходит в мозге и как это можно смоделировать в коде.

Читать далее

Как мы ускорили заливку данных в YDB в 40 раз

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров2.9K

Привет! С вами Кабанов Олег — ведущий ML-инженер Flocktory.

В этой статье расскажу об опыте внедрения YandexDB в качестве хранилища для ML Online Feature Store. А также о том, как нам удалось ускорить загрузку данных в 40 раз и убрать влияние на скорость чтения данных при обновлении.

Читать далее

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

Время на прочтение42 мин
Количество просмотров1.6K

В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.

Во этой части мы проведем обзор общих и юридических бенчмарков, которые целесообразно учитывать при оценке технических компонент RAG, а также системы в целом. В заключение рассмотрим, как самостоятельно подготовить тестовый датасет для оценки RAG‑системы с помощью фреймворка RAGAS и разберем итоговые результаты эксперимента.

Читать далее

Осваиваем LLM: подробное знакомство с книгой Себастьяна Рашки «Строим LLM с нуля»

Время на прочтение5 мин
Количество просмотров8.7K

Недавно у меня появилась возможность прочитать книгу Себастьяна Рашки «Строим LLM с нуля», и, начав читать, я просто не мог её отложить.

Эта книга увлекательно сочетает исчерпывающую теорию, практическую реализацию кода и прекрасно и доходчиво объясняет одну из самых актуальных тем в области современного искусственного интеллекта: большие языковые модели (LLM). Как человек, который любит разбираться в тонкостях моделей ИИ, я считаю эту книгу настоящей жемчужиной. Ее обязательно нужно прочитать всем, кто серьезно интересуется LLM. Хочу отметить, что я никак не связан с автором или издателем; эта рецензия является исключительно отражением моего восхищения содержанием книги.

Читать далее

Instinct от Continue: будущее автоматического рефакторинга

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.8K

Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок, внедрили алгоритм SeleKT для обучения и показали, что их модель работает в 6,4 раза быстрее ручного редактирования.

Читать далее

Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код

Время на прочтение4 мин
Количество просмотров755

Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!

Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.

Читать далее

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров303

Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы.

Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval.

Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки.

Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей.

Читать далее

Ближайшие события

Собираем «идеального душнилу»: как создать ИИ-агента, который завалит вашего чат-бота

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров11K

Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для стресс-тестирования, где один ИИ будет методично ломать другого.

Открыть окно

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.5K

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.

Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу — MWS GPT. Под капотом — наша инфраструктура с GPU.

О том, как тестировать разные LLM в MWS GPT и запускать ИИ-агентов без кода скоро расскажем на вебинаре — присоединяйтесь.

Для обучения LLM требуются огромные и разнообразные датасеты. Однако качество данных часто важнее простого объёма: хорошие данные позволяют модели лучше обобщать и снижать ошибки.  К счастью, есть открытые решения, способные помочь с их обработкой.

Сегодня делимся подборкой систем контроля качества ML-датасетов, проектом для автоматической категоризации и системой контроля версий для наборов данных.

Читать далее

Law & Practice Ensemble RAG. Как создать ассистента, помогающего решать многоаспектные юридические задачи

Время на прочтение28 мин
Количество просмотров1.6K

Большие языковые модели (LLM) в последние несколько лет являются ключевым направлением искусственного интеллекта. Дальнейшее развитие LLM, очевидно, меняет сам способ взаимодействия с технологиями, снижая порог входа для представителей всех профессий, в том числе исконно гуманитарных.

Читать далее

Какая LLM лучше распознает чертежи? Мы сравнили 6 LLM и узнали ответ

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров9.3K

Инженерные чертежи содержат десятки типов размеров и допусков: линейные и угловые, радиальные и диаметральные, справочные и базовые, а также геометрические характеристики вроде плоскостности или перпендикулярности. Для инженера это привычный язык, но для автоматической обработки такие документы представляют серьёзную задачу.

С появлением мультимодальных LLM возник вопрос: способны ли они заменить классические OCR-решения и специализированные пайплайны постобработки? Насколько хорошо современные модели справляются с извлечением размеров и допусков из коробки, без дообучения? Какие модели дают максимальную точность, какие быстрее, а какие дешевле? И можно ли комбинировать разные подходы, чтобы повысить результат?

Чтобы ответить на эти вопросы, мы протестировали шесть актуальных vision-LLM на одном наборе реальных механических чертежей и сравнили их точность, скорость и стоимость обработки.

Читать далее

Союз медицины и искусственного интеллекта: разбираем преимущества и риски

Время на прочтение5 мин
Количество просмотров1.5K

Искусственный интеллект уже стал частью медицины: он видит то, что ускользает от человеческого глаза, анализирует огромные объемы данных, помогает врачам ставить диагнозы и спасать больше жизней. Но пользоваться технологиями важно с умом, иначе они могут нанести вред — например, ИИ может не дополнять профессионализм врачей, а подменять их опыт.

Давайте обсудим, как алгоритмы помогают медицине становиться точнее и доступнее и что важно для сохранения мастерства специалистов в эпоху машинной поддержки.

Читать далее

GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением

Время на прочтение31 мин
Количество просмотров677

Большие языковые модели (LLM) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

Чтобы проверить эту гипотезу, мы представляем GEPA (Genetic-Pareto) — оптимизатор промптов, который системно использует natural language reflection для извлечения высокоуровневых правил из trial-and-error процесса. Для любой AI-системы, содержащей один или несколько промптов LLM, GEPA сэмплирует траектории на уровне системы (например, рассуждения, вызовы инструментов и их выводы) и анализирует их на естественном языке, чтобы диагностировать проблемы, предлагать и тестировать обновления промптов, а также объединять комплементарные инсайты с границы Парето собственных попыток.

Благодаря такому дизайну GEPA нередко превращает даже несколько прогонов в существенный прирост качества. На четырёх задачах GEPA в среднем превосходит GRPO на 10% и до 20% максимум, при этом используя до 35× меньше прогонов. GEPA также опережает ведущий оптимизатор промптов MIPROv2 более чем на 10% на двух LLM и демонстрирует обнадёживающие результаты как стратегия поиска на этапе инференса для задач оптимизации кода.

Читать далее

Тестируем пять моделей DeepSeek R1 и Qwen3 на серверах YADRO

Время на прочтение11 мин
Количество просмотров7K

Привет, Хабр. Меня зовут Дмитрий Крюков, я инженер по разработке ПО искусственного интеллекта в YADRO. Мы продолжаем рассказывать о возможностях GPU-серверов YADRO G4208P и YADRO VEGMAN R220 G2 в работе с локальными (on-premise) LLM-моделями. Сегодня делимся результатами тестирования популярных LLM из семейства DeepSeek R1 и Qwen3 размерами от 14B до 685B параметров. Тесты проводились в условиях, максимально близких к решению реальных кейсов: чат-бот, саммаризация и автоматизация аналитических задач. 

Узнать результаты

Вклад авторов