Обновить
136.66

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Что пугает лично меня в развитии искусственных помощников

Время на прочтение4 мин
Охват и читатели7.8K

Пока генераторы текста на базе языковых моделей соревнуются в скорости производства поверхностных текстов на тему отъема рабочих мест, мне тоже есть, что сказать про гонку вооружений человека искусственными помощниками (которых здесь и далее я для простоты буду называть малорелевантным, но устоявшимся термином «ИИ»).

Я не боюсь, что меня вышвырнут на улицу, потому что ИИ начнет писать код и проектировать системы лучше меня. Неважно даже, почему я так спокоен: оттого ли, что мой уникальный опыт — в некоторых областях — не получить путем всасывания и переработки всей мудрости интернета, или просто потому, что я — беспечный дурак. Речь не об этом.

Есть вещи, связанные с бешеным распространением ИИ в шарнармассах, которые меня по-настоящему, действительно беспокоят.

Нытьё Кассандры

Новости

Лапка в Лапку: как мы пытаемся снизить возвраты животных из приютов с помощью NLP

Время на прочтение6 мин
Охват и читатели10K

Четыре года я была волонтёром в приюте для животных. Это не про красивые фотографии с пушистыми котиками — это про ежедневный уход, уборку, лечение, адаптацию и работу с людьми. Самое тяжёлое — видеть стресс у «вернувшихся» животных. Ещё вчера у них был человек, дом, надежда, а сегодня снова клетка, шум и тревожное ожидание. Некоторые так и не находят семью. Самое страшное для животного — прожить жизнь и так и не получить собственного дома хотя бы на один день.

Читать далее

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

Уровень сложностиСложный
Время на прочтение26 мин
Охват и читатели7K

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI.

Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам.

Мир изменился. Разбираемся, как именно.

В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными.

Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

Читать далее

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели5.1K

В этой статье будет рассказано о популярных метриках оценки для задач генерации текста: BLEU, ROUGE, METEOR, BERTScore. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

🔥 Начинаем 🔥

Data Structure Protocol (DSP): как дать LLM-агентам «долговременную память» о большом репозитории

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.2K

Есть паттерн, который видит каждый, кто работает с агентами: первые 5–15 минут уходят не на задачу, а на "ориентацию". Где точка входа? Откуда растут зависимости? Почему эта библиотека, а не другая? Кто считает это публичным API? В маленьком проекте раздражает. В большом — превращается в постоянный налог на токены и внимание.

DSP (Data Structure Protocol) "выносит карту проекта наружу" — в простой, версионируемый, языковой граф, который живёт рядом с кодом и доступен агенту как постоянная память.

k-kolomeitsev/data-structure-protocol

Цель в архитектуре сформулирована так:

1) Цель и границы

Цель DSP — хранить минимальный, но достаточный контекст о репозитории/системе артефактов в виде графа «сущности → зависимости/публичный API», чтобы LLM могла:

- быстро находить нужные фрагменты по UID,

- понимать «зачем» сущности существуют и «как» они связаны,

- не требовать загрузки исходников целиком в контекстное окно.

DSP — это долговременная память и индекс проекта для LLM. Агент может в любой момент выполнить поиск (grep) по проекту, найти нужные сущности по описаниям/ключевым словам и от найденного UID раскрутить весь граф связей: входящие зависимости, исходящие импорты, реципиентов через exports. Это заменяет необходимость «помнить» структуру проекта или загружать его целиком — вся карта проекта всегда доступна через .dsp.

Читать далее

Театр продуктивности и страшный вопрос «Зачем?». «Виноваты зумеры — убийцы бизнеса»

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.6K

Зумеров обвиняют в том, что они разваливают бизнес кофе-брейками и нежеланием работать. Но проблема глубже: рынок труда превратился в театр продуктивности, где имитация давно заменила результат, а человек стал функцией. NLP анализ датасета из 146 тысяч вакансий вскрывает системную проблему — и она касается не только молодых.

Читать далее

Почему я стал ИТ-волонтером & Датасет новостей о противоречиях современного общества

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели9.1K

Примерно 6 лет назад мой мир ограничивался работой, личной жизнью и компьютерными играми. Всё шло своим чередом, но в моей голове всё-таки вертелись 2 вопроса: обывательский и профессиональный. Почему цены растут быстрее зарплат? И почему наука в нашей стране «стагнирует», хотя в недавнем прошлом было огромное количество научно-технических достижений? Попытка разобраться через популярные источники привела к когнитивному диссонансу...

Читать далее

Архитектуры мультиагентных систем: линейная, рой, оркестратор и гибридное решение — что выбрать для продакшена

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели6K

Привет, Хабр! На связи Just AI. Мы уже долгое время изучаем мир AI-агентов — за это время набили немало шишек и поняли, что создание действительно эффективных и масштабируемых AI-агентов требует глубокого подхода к архитектуре.

В этой статье разберем, почему один «суперагент» почти всегда превращается в монстра, как декомпозиция спасает качество и стоимость, и какие архитектуры мультиагентных систем реально работают в продакшене — с примерами из наших проектов и практическими рекомендациями.

Читать далее

Wikontic: строим графы из текстов, используя онтологию и LLM

Уровень сложностиСложный
Время на прочтение17 мин
Охват и читатели6.3K

Привет, Хабр! Это Алла, я работаю исследователем в команде «Модели с памятью» Лаборатории когнитивных систем искусственного интеллекта Института AIRI и занимаюсь исследованиями на стыке графов знаний и языковых моделей. Ранее я уже писала на Хабре статью про построение графов знаний из текстов по мотивам одной из наших публикаций.

Мы активно продолжаем работать дальше и создали Wikontic — полноценный пайплайн для этой задачи. Недавно мы представляли его на интерактивной демо‑сессии на AAAI 2026 в Сингапуре — про это несколько дней назад вышел хабр от моего коллеги Айдара. Здесь я расскажу подробнее о том, как устроен новый пайплайн, и какие идеи пришли к нам в голову при его создании. 

Читать далее

Как изменилась индустрия AI Security за 2025 год?

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели5.2K

В начале 2026 года мы (авторы телеграм-каналов по безопасности ИИ) собрались, чтобы подвести итоги прошедшего года и обсудить, куда движется безопасность ИИ в общем и целом. Разговор получился честным, на наш взгляд.

Участники дискуссии — Я, Артём Семенов, автор PWN AI; Борис Захир, автор канала Борис_ь с ml; Евгений Кокуйкин, создатель HiveTrace и автор канала Евгений Кокуйкин — Raft; и Владислав Тушканов, исследователь безопасности LLM и компьютерный лингвист, автор канала llm security и каланы.

Ниже мы хотим рассказать вам о том что обсуждали на стриме и к чему мы пришли. Про гардрейлы, стоимость атак, LoRA‑бэкдоры, угрозы ИИ‑агентов и почему каждый подход к защите — компромисс.

Читать далее

Заглянуть под капот ИИ-агентов: новый инструмент раскрывает «магию» Claude Code

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели6.2K

Появился открытый инструмент Coding Agent Explorer — обратный прокси-сервер, который в реальном времени показывает всё общение между вашим ИИ-агентом (пока только Claude Code) и API Anthropic. Вы видите системные промпты, последовательность вызовов инструментов, токены (включая кэш), мышление агента шаг за шагом. Запускается за пару минут, работает локально, ключи маскируются автоматически.

Читать далее

LLM модели: зарубежные VS отечественные

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели9.2K

Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке. Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность.

Читать далее

Почему LLM продолжают генерировать ошибки в коде — и это не исправить масштабированием

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели13K

Код от нейросетей выглядит идеально — пока не попадает в продакшен. Там всплывают тихие баги: логика чуть расходится с требованиями, краевые случаи обработаны неполно, вызываются методы из прошлых версий библиотек.

Это не временный недостаток. Баги заложены в саму математическую природу современных LLM — аппроксимация гарантирует точность только внутри области тренировочных данных. За её пределами начинается экстраполяция, а вместе с ней — галлюцинации.

Читать далее

Ближайшие события

Чат-бот с генеративным AI под капотом (разговаривает как живой)

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели8.3K

Реализация чат-бота с LLM под капотом, который ведет общение с пользователем в свободной форме, но собирает структурированную информацию, согласно перечню параметров в конфигурационном файле. А сам файл конфигурации - таблица с описанием скрипта общения, такая, которую вы бы написали для людей: операторов кол-центров, продавцов или интервьюеров. Интересно? Погодите, я еще не закончил! LLM работает локально, не надо платить за токены!

Подробности внутри

Небольшой тест LLM‑модели qwen3‑coder‑next:q8_0

Время на прочтение3 мин
Охват и читатели8.8K

Тест LLM‑модели qwen3‑coder‑next:q8_0: модель успешно построила карту большого форума, собрала все сообщения в JSON и преобразовала их в готовый SQL‑дайджест, показав высокое качество генерации кода, но «залипла» при решении чисто логической задачи.

Читать далее

Language Dove: как я транскрибирую и перевожу фильмы

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели17K

Я обожаю смотреть иностранные фильмы в оригинале.

Во-первых, мне нравится расширять кругозор, погружаться в другую культуру, расшифровывать структуру разных языков, пополнять словарный запас.

Во-вторых, мне просто нравится звучание некоторых языков - например, французского, китайского, датского.

Также я работаю над сайтом по изучению языков Language Dove, а учить языки по фильмам - это очень эффективно.

Так родился проект по генерации идеальных субтитров.

Читать далее

Мой локальный агент помнит проект лучше меня. Контекст — 32K токенов. Расскажу, как

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели51K

Мой агент на Llama 3.1 8B в третий раз спросил, как меня зовут. Я представился 200 сообщений назад. Контекст переполнился — начало разговора уехало. Большие контексты не спасают: дорого, «Lost in the Middle», локально не влезает. Суммаризация теряет детали. Я сделал по-другому — три типа внешней памяти: Redis для фактов, ChromaDB для семантического поиска, файлы для документов. Контекст маленький, память большая. Внутри — код на Python и грабли, на которые я уже наступил.

Читать далее

Практический гид по Claude Skills, проектам и Claude Code: как собрать свой ИИ-стек

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели15K

Claude умеет многое, но в реальной работе чаще всего ломается на рутине: стиль, шаблоны, чек-листы, критерии, инструменты. Agent Skills решают это прагматично: вы один раз упаковываете процедуру в папку со SKILL.md, и Claude подхватывает ее по ситуации. В статье простое объяснение, как это устроено, чем Skills отличаются от Projects/MCP, и как я упаковываю скиллы для моих повседневных задач.

Читать далее

Как прошла AAAI 2026: большой репортаж

Уровень сложностиСредний
Время на прочтение25 мин
Охват и читатели7.4K

Привет, Хабр! Конференции серии AAAI — крупнейшие события в области искусственного интеллекта, которые утягивают на себя внимание в начале каждого года. Местом проведения AAAI 2026 стал Сингапур, что позволило мне — директору лаборатории когнитивных систем искусственного интеллекта AIRI и Центра когнитивного моделирования в Институте искусственного интеллекта МФТИ Александру Панову — и многим моим коллегам принять в ней участие. 

По ходу конференции я вёл заметки о докладах и событиях, которые были мне интересны, общался с коллегами, подмечал тренды, фотографировал. Посмотреть было на что. Например, AAAI 2026 стала первой в истории экспериментальной площадкой такого уровня по использованию LLM в качестве рецензентов. 

Я решил собрать всё в один большой репортаж, чтобы те, кто по какой‑то причине не смог присутствовать, смогли хотя бы прочитать о том, что там происходило. Конечно, обозреть всё на такой огромной конференции невозможно. Но если вам, как и мне, нравятся нейросимвольная интеграция и RL, то вам будет интересно.

Поехали!

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

Время на прочтение4 мин
Охват и читатели7.6K

Представьте, что вы объясняете ребёнку, что такое «яблоко». Вы покажете картинку, дадите попробовать, расскажете, что оно круглое, сладкое, растёт на дереве, а теперь попробуйте объяснить это нейросети. Она не видит, не пробует, но она понимает только числа.

Как же тогда заставить машину понять, что «яблоко» ближе к «груше», чем к «трактору»? Ответ на самом деле кроется в элегантном приёме, который произвёл революцию в NLP- векторных представлениях слов, или эмбеддингах.

Проблема «слепого» кодирования: почему one-hot не работает

Самый наивный подход- это пронумеровать все слова в словаре и закодировать каждое вектором из нулей и одной единицы:

Читать далее
1
23 ...