Обновить
59.74

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Как открытые веса раскрыли секреты обучения GPT-5

Время на прочтение11 мин
Количество просмотров9.8K

Команда AI for Devs перевела статью, показывающую, что открытые веса — это не только про прозрачность, но и про утечку тайн обучения. На примере модели GPT-oss автор показывает, как можно восстановить части обучающего пайплайна и даже выявить, что GPT-5 видела фразы с сайтов для взрослых.

Читать далее

Все еще борешься с галлюцинациями? Ты просто не умеешь их использовать

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.3K

Привет, Хабр! Меня зовут Василий Коновалов, я работаю в команде «Вычислительная семантика» в AIRI. Наша команда сфокусирована на исследовании галлюцинаций и на решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними.

Но, возможно, мы не всегда должны делать это. Тем более, что научные работы показывают, что галлюцинации неизбежны. Вместо этого мы извлекли из них пользу: мы применили галлюцинации больших мультимодальных моделей для детекции странных картинок — то есть картинок, противоречащих здравому смыслу.

Об этом мы вместе с коллегами из Сколтеха, MWS AI и МФТИ написали научную статью Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images, которую приняли на NAACL. Здесь я кратко расскажу, что именно мы сделали.

Читать далее

Мы решили задачу омографов и ударений в русском языке

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров11K

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

Как работает Context Engineering в Claude и других агентах

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров5K

Команда AI for Devs подготовила перевод статьи об инженерии контекста — новом ключевом подходе в построении AI-агентов. Если раньше все говорили о prompt engineering, то теперь на первый план выходит умение управлять ограниченным ресурсом — контекстом. Компакция, заметки, подагенты, динамическая подгрузка данных — всё это формирует новое искусство работы с LLM.

Читать далее

90% кода

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров18K

Команда AI for Devs подготовила перевод статьи о том, как меняется программирование с приходом ИИ. Автор делится опытом: в его проекте уже 90% кода пишется агентами, но вся ответственность за архитектуру и продакшен остаётся на нём. Это не далёкий прогноз — это уже реальность, просто распределённая неравномерно.

Читать далее

Паттерны программирования при работе с LLM

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров10K

LLM - мощный инструмент, но его эффективность в продакшене зависит не от одного «хитрого промпта», а от всей архитектуры: что мы даём модели, как управляем её рассуждением и как проверяем/обрабатываем результат. В этой статье - компактная карта паттернов, разбитая по этапам конвейера: Input -> Reasoning -> Output.

Читать далее

Как мы создали ИИ-бота для генерации презентаций, когда клиенты поставили в тупик

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.1K

У всех же была такая ситуация в школе или университете, что надо было подготовить презентацию, а из головы вылетело. И вот тебя вызывают выступать через 15 минут, а из заготовок есть только идея. Вот бы можно было написать эту идею чат боту, который сделал бы эту презентацию за минуту.

Так родилась идея нашего ИИ-чат-бота, который теперь берёт на себя всю рутину и создаёт презентации, от которых клиенты в восторге. Расскажу, как мы к этому пришли и что из этого получилось.

Читать далее

HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.8K

Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.

Мы прогнали через него 25 открытых и проприетарных LLM и выявили существенные различия в производительности, редко наблюдаемые в традиционных бенчмарках для анализа логических рассуждений. Другая особенность нашей работы в том, что новый бенчмарк вырос из небольшого студенческого проекта на летней школе AIRI. 

Подробнее об этом и технических деталях — читайте в нашей статье.

Читать далее

Ловим ошибки в диалогах поддержки с помощью LLM: опыт команды Yandex Crowd

Время на прочтение10 мин
Количество просмотров2.8K

Ежемесячно клиентская поддержка продуктов Яндекса обрабатывает миллионы обращений. Мы регулярно проверяем диалоги вручную. Это помогает бороться, например, с опечатками и другими ошибками операторов. Но проверить все диалоги в таком режиме невозможно — их слишком много. Поэтому мы решили посмотреть в сторону LLM-решений.

Привет! Меня зовут Дарья Шатько, я руководитель ML-группы в Yandex Crowd. В этой статье я расскажу, как мы с моим коллегой Антоном Удаловым внедряли большие языковые модели в контроль качества клиентской поддержки. А именно — почему регулярки и BERT не взлетели, как мы собрали репрезентативный golden‑датасет, как победили лимит контекста, снизили ложные срабатывания через многоступенчатый LLM‑flow и в итоге покрыли проверками абсолютно все диалоги поддержки.

Читать далее

GPT-5 и API Responses: зачем нужен ещё один стандарт?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.9K

Команда AI for Devs подготовила перевод статьи о новом API /v1/responses от OpenAI, который объединяет простоту Chat Completions и мощь Assistants, и при этом сохраняет состояние рассуждений, мультимодальность и встроенные инструменты. Это шаг к агентам будущего — и, похоже, к новому стандарту работы с моделями OpenAI.

Читать далее

Кейс: разработать квест-мастера на нейронке

Уровень сложностиСредний
Время на прочтение47 мин
Количество просмотров951

Инженерия подсказок, как и все, что связано с нейросетями, для непогруженного человека может показаться чем‑то раздутым и незначительным. Нет, ну серьезно. Что трудного попросить ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ сочинить стишок или рассказать популярно что такое «Эпистемологический анархизм». Но на деле все действительно оказывается слишком, слишком, слишком нетривиально. Расскажу на примере пустяковой задачки: «Разработать ИИ‑агента квест‑мастера, который генерит загадки и отслеживает ее угадываемость».

Доп.цель:
добиться исполнения логики именно на стороне нейросети, используя только ее базовые параметры, используя только бесплатные или самые дешевые модели, с задействованием минимально необходимого бекенда.

Читать далее

Kandinsky 5.0 Video Lite — лучший open-source генератор видео высокого качества в классе лёгких моделей

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров12K

Мы выпускаем Kandinsky 5.0 Video Lite — первую модель новой линейки Kandinsky 5. Модель работает в разрешении 768×512 и, при небольшом размере всего в 2 млрд параметров, демонстрирует качество, превосходящее предыдущие версии Kandinsky и большую часть актуальных открытых state-of-the-art решений.

Ключевой акцент сделан на эффективности: модель компактна, требует меньше ресурсов и генерирует быстрее. Такой результат стал возможен благодаря комплексной работе — от сбора и подготовки данных до предобучения и тонкой настройки. Мы исследовали современные методы оптимизации архитектур и применили собственные наработки для балансировки качества и скорости.

В этом посте мы подробно разберём устройство Kandinsky 5.0 Video Lite и её возможности.

Читать далее

RAG-системы на арене: протестировали 5 популярных решений на реальных данных

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.9K

Начнем с боли, знакомой каждому. У любой уважающей себя компании есть своя цифровая «антресоль» — растущая гора DOCX-документов, неструктурированные PDF-файлы, раздувшийся Confluence и километры переписки в почтовых ящиках. Найти там что-то часто попросту невозможно. И тут на сцену выходят LLM и RAG-системы.

Retrieval-Augmented Generation — это технология, которая обещает превратить информационную свалку в упорядоченную библиотеку. Идея простая: даем мощному ИИ доступ к корпоративным знаниям, а поисковик в нужный момент находит релевантный документ и подает его модели. Должен получиться идеальный корпоративный ассистент, который знает все о продуктах, помнит каждую инструкцию и отвечает клиентам мгновенно и без ошибок.

Но есть загвоздка. Что если этот умный помощник, вдруг начнет галлюцинировать?

Мы с командой решили устроить тест пяти RAG-системам на реальных данных. От корпоративных платформ до open-source решений — AutoFAQ Xplain, Yandex, AnythingLLM, Witsy и Onyx. Мы заставили их работать с неудобными форматами, включая отсканированные PDF и устроили слепой экзамен на точность ответов. В роли экзаменаторов выступили два независимых эксперта и две нейросети-оценщика.

В этой статье расскажем:

- Кто наши испытуемые и чем они отличаются под капотом. 
- Как мы построили полосу препятствий из типичных корпоративных документов. 
- Кто споткнулся уже на этапе подключения к данным. 
- И главное — кто оказался самым точным и стабильным.

Результаты вас удивят. Также будет ссылка на GitHub — вы сможете повторить наш эксперимент.

Читать далее

Ближайшие события

Что такое AI-агент и из каких основных частей он состоит

Уровень сложностиСредний
Время на прочтение20 мин
Количество просмотров14K

В этой статье будет приведено описание AI-агента. Подробно рассмотрим основные его компоненты, а также реализуем их на языке Python.

🔥 Начинаем 🔥

Создание умных AI-агентов: полный курс по LangGraph от А до Я. Часть 3. Даём ИИ руки: работа с инструментами и MCP

Время на прочтение36 мин
Количество просмотров11K

В третьей части курса по созданию ИИ‑агентов совершаем революционный скачок: превращаем умных болтунов в настоящих цифровых исполнителей с «руками».

Учим агентов самостоятельно работать с файлами, базами данных, API и внешними системами. Больше никаких просьб «пришлите мне файл» — агенты сами найдут данные, проанализируют их и создадут отчёт.

Осваиваем три мощных паттерна: ручные графы с инструментами для максимального контроля, ReAct‑агентов для простоты использования и мультиагентные системы, где каждый агент — эксперт в своей области.

От простых файловых операций до комплексных систем с оркестратором, которые автоматически исследуют темы в интернете, структурируют данные и создают профессиональные отчёты.

Плюс разбираем Model Context Protocol (MCP) — универсальный стандарт для подключения любых инструментов.

Читать далее

Почему я не верю в ИИ-агентов в 2025 году, несмотря на то, что сам их разрабатываю

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров21K

Команда AI for Devs перевела статью, в которой автор делится прогнозами о будущем ИИ-агентов в 2025 году. Его выводы: несмотря на шумиху, «автономные агенты» столкнутся с экономическими и техническими барьерами. Почему текущий подход к архитектуре агентов не сработает и какие методы действительно приносят результат — читайте в статье.

Читать далее

SteosMorphy: опенсорс замена давно умершему PyMorphy2

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.5K

PyMorphy2 — самая популярная библиотека для обработки слов в русском языке. Однако последний коммит в репозиторий этой библиотеки был сделан более 5 лет назад, а её установка на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным.

Предлагаю рассмотреть новую Open Source библиотеку SteosMorphy, которая является аналогом PyMorphy, но делает всё быстрее и круче!

Ознакомиться

Clickhouse в машинном обучении без использования GPU. Часть 1

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.7K

Один из моих коллег сказал когда‑то, что «база данных — это хранилище, а не считалище!». Эту фразу я вспоминал регулярно, пока проводил свое маленькое исследование. Целью данной статьи является описание практического опыта эффективного решения одной из задач ML на существующих аппаратных ресурсах, без аренды/покупки дорогостоящих GPU.

Читать далее

Насколько зацензурен и опасен DeepSeek?

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров18K

Насколько предвзят искусственный интеллект? Принято ругать нейросети за трансляцию стереотипов человеческого мышления, которые были подсмотрены в датасетах предобучения. На деле ИИ куда более аккуратен, чем можно ожидать.

Хороший пример — генерация фотографий бабочек. Как правило, дизайнеры-люди очень любят изображать бабочек в мёртвом виде. Дело в том, что энтомологи руководствуются строгими визуальными стандартами: вид сверху, расправленные на 180° крылья, чистый фон, симметрия.

Речь про следующее: передние крылья ставят так, чтобы их задняя кромка была перпендикулярна оси тела. Так образец проще сравнивать по рисунку жилок и пятен. Именно в таком виде бабочки лежат в энтомологических рамках и попадают в каталоги, атласы и на фотостоки. Живая, не задушенная пара́ми этилацетата бабочка так не сидит — ей просто неудобно.

Нужно ли ожидать, что этому стереотипу подвержен ИИ?

Читать далее

Прокачиваем RAG: тестируем техники и считаем их эффективность. Часть 2

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров6.2K

В прошлой части мы подробно разобрали 11 популярных техник RAG: как они устроены, какие у них есть сильные и слабые стороны, и в каких сценариях они могут быть полезны. Теперь пришло время перейти от теории к практике и посмотреть, как эти подходы показывают себя в деле.

В этой статье мы посмотрим на результаты экспериментов: какие техники оказались наиболее эффективными на датасете Natural Questions, где они приятно удивили, а где — наоборот, не оправдали ожиданий. Для оценки будем использовать фреймворк RAGAS, а также метрики BertScore и ROUGE-2 для анализа релевантности извлечённых чанков и финальных ответов.

Поэтому впереди нас ждут эксперименты, цифры, наблюдения и (надеюсь) ценные инсайты, которые помогут вам не просто понять, какая техника кажется хорошей, а выбрать оптимальную под вашу задачу.

Читать далее