Обновить
256K+

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

117,71
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Классификация галлюцинаций LLM | «Врага нужно знать в лицо»

Уровень сложностиСредний
Время на прочтение22 мин
Охват и читатели8.1K

В этой статье я постарался выписать все то, что понял про «галлюцинации» LLM за время их изучения и практики борьбы с ними. Будучи архитектором по профессии и занудой по природе, я изначально их классифицировал и искал способы, как галлюцинации победить / укротить. В этой статье я хочу поделиться тем, что мне удалось накопать.

Сопоставимого по охвату практико-ориентированного материала на русском я не нашёл. На английском есть более полные академические обзоры, но они опубликованы на arXiv и написаны для ML-исследователей.

Без академичности, описано на живом языке, надеюсь, будет понятно всем, кто осилит объем. Кратко написать статью не вышло, все же нужно показать, чем одна категория отличается от другой, а также предложить «как с ними можно бороться».

Классификацию галлюцинаций я разбил на 5 групп, на фундаментальном уровне выделив «главных виноватых»:
— Проблема в весах, а виновато предобучение
— Проблема в промпте, а виноват пользователь
— Проблема в самой архитектуре LLM, виновата жизнь
— Проблема в дрессировке RLHF, а виноваты горе-учителя
— Проблема в окружении LLM, а виноваты все, кто это окружение разрабатывает / интегрирует

Читать далее

Новости

Пять мыслей о возможностях и ограничениях LLM

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели10K

О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.

Ниже представлены наблюдения по этим вопросах.

Читать далее

Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели8.7K

В задачах обработки естественного языка (NLP) часто требуется список слов русского языка. Такой список может использоваться как базовый фильтр для выявления неизвестных и потенциально некорректных слов.

Одним из распространённых инструментов для работы с русским текстом является библиотека pymorphy (pymorphy2 / pymorphy3), основанная на корпусе русского языка OpenCorpora. Она предназначена для морфологического анализа текстов и, в том числе, позволяет проверять, известно ли слово встроенному словарю библиотеки.

Однако словарь pymorphy ориентирован на нормативную лексику и морфологию. В нём отсутствует значительная часть имён собственных, топонимов, заимствований, разговорной и современной лексики. Поэтому при использовании pymorphy для фильтрации текста возникают ложные срабатывания, много редких и нестандартных слов определяются как неизвестные (что мы увидим ниже в разделе сравнения словарей).

Для повышения полноты выявления неизвестных слов я решил собрать свой максимально широкий список слов русского языка для задач NLP.

Такой список слов можно получить на основе данных сайта Wiktionary (Викисловарь). Wiktionary — это открытый многоязычный словарь, в котором каждая словарная единица представлена в виде отдельной статьи. Викисловарь содержит информацию о словах различных языков, включая русский, а также сведения об их морфологических и синтаксических свойствах.

* Признан минюстом РФ иностранным агентом.

Читать далее

DeepSeek V4 vs Claude Sonnet 4.6: кто дешевле, кто умнее

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели11K

DeepSeek V4 в 3-4 раза дешевле Sonnet 4.6 на одинаковых задачах. На английских бенчмарках они почти равны, и интернет советует переходить на DeepSeek. Но что если прогнать обе модели на 50 типовых задачах российского разработчика? Разбор с цифрами и примерами.

Читать далее

Высокоэнтропийный вайбкодинг

Уровень сложностиПростой
Время на прочтение15 мин
Охват и читатели13K

Генератор картинок видит "высокоэнтропийный вайбкодинг" как-то так. Но имеется более практическое применение.

>>>>ЧИТАТЬ

Наглядный пример, зачем нужны агенты

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели22K

Расскажу историю длиною в полгода, на которой прекрасно прочувствовал все прелести современных инструментов и способов эксплуатации llm.

Идея до жути простая и наверняка встречалась или приходила в голову очень многим, кто начинал задумываться об использовании llm api или после знакомства с rag. В августе 2025 года папа предложил мне создать хороший поисковик-анализатор новостей: ты даешь ему список источников и пожелания того, что хочешь увидеть в ответе, он тебе присылает в выбранный интервал сводку с источниками и отвечает на твои вопросы. Казалось бы, классическая задача чтобы показать всем удачное применение rag, словить аплодисменты и разойтись. Так показалось и мне, и я буквально за 1-2 месяца работая в свободное время собрал вполне достойный прототип. Он умел хорошо искать семантически, просить llm сформировать ответ на основе найденных постов и даже помогал их открывать. В мыслях салюты, шампанское и ai единороги.

Но реальность

Довольно быстро на самотестировании я нашел два серьезных упущения: первое - сложный запрос для такой системы оставался недопустимой роскошью: попытка найти “причины шатдауна правительства США” в лучшем случае приводила меня к заголовкам про Трампа и что-то там про переговоры, а иногда и вовсе такого рода запросы не давали никакой выборки по базе; второй серьезной проблемой стало абсолютное непонимание предметной области, если того же Трампа вектора в базе еще ставят в один ряд с Америкой и политикой, то вот ЦБ РФ может запросто восприниматься как Россия или вообще непонятная модели сущность, а может вообще трактоваться как два отдельных слова. В целом обе эти неприятности подсвечивают один известный изъян всей системы - слишком большое доверие к семантической схожести и вытекающие из нее проблемы: размытие смысла на длинных запросах, непредсказуемое поведение имен собственных, поиск связей по частотному сходству, а не смыслу.

Читать далее

Почему Хомский неудобен для AI‑индустрии

Уровень сложностиСложный
Время на прочтение6 мин
Охват и читатели18K

О grammar constraints, валидном JSON и ошибочном понимании языка

Кажется, что разговор о формальных грамматиках в LLM — это узкая инженерная тема для тех, кто заставляет модель соблюдать формат ответа. Но вокруг этого частного приема все чаще вырастает более сильный тезис: будто ограничение генерации не просто делает вывод надежнее, а подводит модель ближе к смыслу, пониманию и даже к самой природе языка. Именно в этот момент технический разговор перестает быть только инженерным.

Читать далее

GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели10K

В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

Читать далее

Эволюция данных: генетический алгоритм в задаче классификации текстов

Время на прочтение5 мин
Охват и читатели12K

Привет! Меня зовут Женя Андриевская. Я — NLP-инженер в лаборатории R&D red_mad_robot. Сегодня расскажу, как мы призвали на помощь эволюцию, чтобы улучшить качество данных в задачах классификации текстов. Да-да, ту самую эволюцию, с мутациями и скрещиваниями — только в мире данных, промптов и LLM.

Читать далее

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели9.2K

Большинство существующих AutoML-библиотек либо не поддерживают обучение моделей для понимания естественного языка (Natural Language Understanding, или NLU) из коробки, либо не умеют обучать хорошие out of scope детекторы, либо неудобны и требуют расширенной экспертизы для использования.  

Для того чтобы решить эти проблемы, мы в MWS AI разработали OpenAutoNLU — опенсорс-библиотеку для NLU, включающую диагностику качества данных, гибко настраиваемый пайплайн обучения модуля фильтра запросов, которые не относятся ни к одному из известных текстовых классификаторов меток OOD, и функции LLM. Делимся ей на GitHub

Под катом разберу, как устроен фреймворк, за счет чего он работает с минимальным вмешательством разработчика и какие результаты уже есть.

Поехали!

Мысли об одной продуктовой ошибке подавляющего большинства GenAI компаний

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели7K

Основные игроки рынка GenAI совершили фундаментальную продуктовую ошибку. Продавая доступ к API разработчикам, они одновременно копируют лучшие сторонние юзкейсы в свои подписочные продукты - и тем самым каннибализируют собственный API-бизнес и душат конкуренцию на рынке. В статье разбираю, почему текущая двойная модель монетизации (подписка + pay-as-you-go) вредит индустрии, и выдвигаю гипотезу: за токены должен платить пользователь, а не разработчик. Объясняю, как такой сдвиг вернул бы рынку здоровую конкуренцию и дал бы шанс соло-фаундерам и небольшим командам.

Читать далее

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели11K

В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.

Читать далее

785 статей. 26 доменов. Для агентов, не людей

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.2K

Когда AI-агент пишет код в пустом проекте, первые 30-40% токенов он тратит на ориентацию — читает README, туториалы, API-reference. Ни один формат не отвечает на главный его вопрос: “какой паттерн скопировать и где грабли?”

Вторая проблема глубже: LLM знает “всё на свете”, но распределено это неравномерно. Статей пятилетней давности в интернете больше, чем свежих — и агент по умолчанию тянет меня в прошлое, предлагая устаревшие рецепты. Каждый раз гонять deep research — дорого, и результат всё равно испаряется с сессией.

Happyin Knowledge Space — 785 статей в 26 доменах, под MIT. Reference cards, не туториалы. Граф wiki-ссылок вместо vector DB. llms.txt на шести языках. Пишется по результатам моих реальных ресерчей — каждый deep research теперь становится карточкой в базе и не испаряется. Локально разворачивается за 5 минут, работает без серверов и без embedding-моделей.

Читать далее

Ближайшие события

KV-кэш, экспертное сообщество и критическое мышление

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели4.5K

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие).

Механизм внимания всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: Слово не может ссылаться на слова, которые оно ещё не знает. Назвается это казуальностью (причинностью).

Но ведь в предложении “Зелёное яблоко лежит на столе” слово зелёное уже знает про слово “яблоко”, но не может на него сослаться. Непонятно

Провёл небольшой эксперимент и подключил нечеловеческий мозг.

Читать далее

ASR на CPU. Как выбрать бэкенд, настроить Triton и не потерять в точности

Уровень сложностиСредний
Время на прочтение15 мин
Охват и читатели5.8K

Привет, Хабр! Меня зовут Владимир Никулин, я технический лидер команды продуктивизации нейросетевых решений в MWS AI. Мы развиваем платформу синтеза и распознавания речи Audiogram, которая, в свою очередь, является частью еще более масштабной платформы для создания ИИ-агентов — MWS AI Agents Platform.

Часто нашим заказчикам нужно компактное коробочное решение, которое можно запустить на CPU при отсутствии GPU или для простой экономии ресурсов. В этом материале по следам своего же доклада на AiConf на примере нашего модуля автоматического распознавания речи (Automatic Speech Recognition или кратко — ASR) я расскажу:

- как мы продуктивизировали модели на CPU, сохраняя качество (WER), сопоставимое с моделями, развернутыми в GPU-кластерах;

- какие подходы для сравнения по производительности и качеству использовали, чтобы не попасть в ловушку усреднения метрик;

- с какими неожиданностями мы столкнулись при смене версий Triton Inference Server и бэкендов (ONNX, OpenVINO).

Поехали!

«Я ща его ударю». Полтора года собирала жалобы на нейросети от нытиков и классифицировала

Время на прочтение11 мин
Охват и читатели5.6K

Дело было так. Я года полтора-два сижу в профильных телеграм-чатах про всякие эйяй – там разрабы, копирайтеры, редакторы, вайбкодеры и вайбкуколдеры (это кто смотрит, как другие вайбкодят, а у самого руки не доходят). Народ там не на трибуне выступает, скорее говорит, что на сердце, так что читать чистый кайф. Особенно, как они ссорятся с нейронками и потом в чат на них жалуются. И одни и те же жалобы у самых разных людей на разные модели.

Посмотрим, что у них там за разборки

Как мы научили ИИ подбирать мебель по архитектурным чертежам

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.4K

В мире строительства и дизайна интерьеров работу по подбору мебели из каталога, имея на руках чертеж, до сих пор делают вручную: специалисты часами листают каталоги, сверяют размеры и характеристики. Эта рутина отнимает десятки человеко-часов на каждый проект.

Мы нашли, как автоматизировать подбор мебели по архитектурным чертежам. В этой статье мы рассказали, как построили AI-систему с несколькими моделями и Gemini во главе, а также семантическим поиском по каталогу. Расскажем, как нам удалось достичь точности рекомендаций в 87%.

Читать далее

NLP глазами CVшника. Чем мне запомнилась поездка в Марокко на конференцию EACL 2026

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели6.8K

Привет, Хабр! Я — Андрей Москаленко, научный сотрудник лаборатории FusionBrain, AIRI, занимаюсь компьютерным зрением. В конце марта я оказался на своей первой конференции по NLP — EACL 2026. В этом году она впервые проходила в необычном для европейской конференции месте, а именно в Марокко, в Африке. Из нашей команды FusionBrain.Robotics со мной было двое коллег, с которыми мы представляли две статьи, написанные в соавторстве с командой «Прикладное NLP» AIRI.

Конференция проходила с 24 по 29 марта — четыре основных дня и два дня воркшопов. Поездка получилась очень насыщенной и по науке, и по нетворкингу, поэтому хочу поделиться своими впечатлениями!

Читать далее

Как переложить нагрузку по code review с разработчиков на LLM

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели16K

Привет! Меня зовут Марк Каширский, я работаю DS-инженером в команде LLM Авито. Создаю инструменты для разработчиков, чтобы им было легче и удобнее работать. В статье рассказываю, как мы автоматизировали процесс Code review при помощи больших языковых моделей.

Читать далее

Весна на «б». Как Пастернак радуется весне одной буквой

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели7.2K

Как Пастернак призывал весну и какие интересные лексические средства использовал для выражения этого ожидания. С помощью Python раскрываю скрытые паттерны в стихотворении Бориса Пастернака

Читать далее
1
23 ...