Как стать автором
Поиск
Написать публикацию
Обновить
144.19

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Эмбеддинг с навесом: перегрузка лексических парсеров вложением неявных ссылок

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров376

Некоторые предложения на английском языке кажутся абсурдными на первый взгляд, на второй взгляд – странными, но уже третий взгляд позволяет обнаружить интересное лингвистическое явление, связанное с рекурсией. Хорошо подобранная, правильная вложенность грамматических конструкций может привести в зависшее состояние даже встроенный парсер человека, а не только машины. Все примеры в статье – на английском, а объяснения – на русском.

Читать далее

Новости

15 примеров применения Natural Language Processing

Время на прочтение8 мин
Количество просмотров652

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

В этой статье мы попробуем разобраться с тем, как используется NLP для решения реальных задач и рассмотрим 15 примеров использования данной технологии и машинного обучения.

 

Читать далее

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров689

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

Читать далее

Немного про SPARQL, или как мы заняли призовое место на Text-To-SPARQL Challenge на ESWC 2025

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров433

Привет, Хабр! Мы — Даниил Березин и Роман Авдеев, магистранты кафедры банковских информационных технологий в МФТИ (СберТех).

В рамках дипломной работы под руководством кандидата технических наук, научного сотрудника группы «Прикладное NLP» AIRI Олега Сомова мы участвовали в соревновании Text‑To‑SPARQL Challenge на конференции ESWC 2025 (Порторож, Словения).

Среди 9 команд из ведущих европейских исследовательских центров мы заняли:

🥉 3-е место в треке DBPedia

🏅 5-е место в треке с корпоративным графом знаний

В этой статье расскажем, как проходило соревнование, какие подходы мы пробовали и какие уроки извлекли.

Читать далее

RuModernBERT и USER2: эволюция русскоязычных энкодеров

Время на прочтение9 мин
Количество просмотров982

Привет, Хабр!

В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы:

Pre‑train‑модели (BERT, RoBERTa, DeBERTa).
Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу.

Энкодеры текстов (SBERT).
Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами.

В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

Читать далее

Как мы строим умный «файрвол» для LLM

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.2K

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт‑атакам. Мы его назвали AVI — Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале Applied Science. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть. 

Заинтересовавшиеся – велком под кат.

Читать далее

Как научить нейросеть работать руками: создание полноценного ИИ-агента с MCP и LangGraph за час

Время на прочтение24 мин
Количество просмотров6K

Надоели чат‑боты, которые только болтают? Создаём настоящего ИИ‑помощника: читает файлы, ищет в сети, запоминает всё. LangGraph + MCP — пошаговый гайд для Python‑разработчиков. Меньше теории, больше работающего кода.

— Два готовых агента: классификатор вакансий + файловый помощник
— Поддержка Ollama, OpenAI, DeepSeek — выбирайте любую модель
— Асинхронная архитектура с обработкой ошибок
— Полная интеграция в Python‑проекты без no‑code конструкторов
— Код готов к продакшену: логирование, retry‑механизмы, конфигурация

От настройки окружения до рабочего агента за час.

Читать далее

AFlow: как создавать мультиагентные системы без программиста

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров1.6K

Привет, Хабр!

Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.

В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберёмся, как это работает и почему это важно.

Читать далее

Language Dove: разбираем китайскую и не только грамоту

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.1K

Я довольно давно живу в Армении и изучаю армянский язык для получения гражданства («вы должны уметь читать любой документ» — сказали мне в миграционном центре).

Армянский язык очень сложен, и у меня возникла идея написать приложение для иммерсивного (dove — нырнул, погрузился) чтения на иностранном языке с пословным контекстуальным переводом, которое способно работать с любыми языками, даже с самыми редкими и сложными.

Читать далее

Некоторые мысли о преподавании (и) ИИ

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров764

Эта статья — набор мыслей о влиянии искусственного интеллекта на ландшафт современного образования в смысле рисков и возможностей, которые он несёт. Мысли несколько сумбурные, но, как мне кажется, своевременные.

Процитирую свой же текст, опубликованный в телеграм‑канале:

«В последнее время образовательное сообщество охватила паника, связанная с бессильностью по отношению к использованию AI для списывания. С проблемой столкнулись не только школы и сравнительно простые курсы университетского уровня, но и такие мастодонты как шад (https://habr.com/ru/articles/881 858/). Высказаться о новом ландшафте образовательной реальности успели и Сальман Хан, и Эрик Шмидт, и Билл Гейтс.

Проблема не обошла стороной ни гуманитарные науки, ни западные университеты. Один из первых скандалов, связанных со списыванием, произошел в 2022 году, когда Даррен Хик, профессор философии университета Фурмана (США) с удивлением обнаружил курсовую работу, полностью написанную ChatGPT. В 2022 году это ещё было в новинку. Фурман распознал статическую нетипичность работы, а также методом пристального детективного анализа обнаружил колоссальное количество фактических ошибок в работе, ни одна из которых изначально не бросалась в глаза.

С тех пор всё стало хуже. LLM решают почти любые мыслимые задачи любой технической области, зачастую не оставляя явных артифактов своей работы. Звучали разные идеи по преодолению этого кризиса: от использования специальных ребусоподобных форматов заданий (капча и задача — 2 в 1) и попыток формулировать задания с учётом уязвимостей LLM до тотального возвращения к аналоговым форматам сдачи экзаменов.

Читать далее

Cache-Augmented Generation против RAG: как ускорить инференс без потери качества

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.6K

Привет, чемпионы! Сегодня расскажу про очень интересную вещь, которая в определенных ситуаций, может быть выгоднее, чем RAG, а также свой опыт в проведении R&D данной технологии и с помощью какой надстройки можно усилить RAG, чтоб прийти к середине между CAG и RAG.

В настоящее время существует множество техник для улучшения качества ответов LLM при работе с частными или корпоративными данными. В этой статье я постараюсь кратко и понятно объяснить:

• что такое CAG

• в каких случаях он действительно применим

• с какими подводными камнями столкнулись мы, а можете и вы при его использовании,

• и какую надстройку можно внедрить в RAG, чтобы приблизиться к эффективности CAG, не теряя гибкости ретривера.

Читать далее

Свой ChatGPT на документах: делаем RAG с нуля

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров16K

Всем привет! Наверняка у вас были ситуации, когда нужно быстро найти что-то в длинном документе-договоре, инструкции или отчёте. Сегодня я покажу, как сделать своего помощника, который будет отвечать на такие вопросы автоматически. Соберем RAG с нуля: загрузим документы, "нарежем" их на куски, проиндексируем в векторной базе данных Qdrant и подключим LLaMA.

Если вы увидели незнакомые слова — не пугайтесь, далее я расскажу об этом подробно.

Читать далее

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров21K

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.

В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей.

Читать далее

Ближайшие события

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров9.6K

В этой статье мы говорим об автопромптинге - что это такое, зачем он нужен и как он помогает уже сегодня промпт-инженерам.

Читать далее

Используем API Speech2Text для распознавания записей разговоров

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.6K

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную.

Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

Читать далее

Готовимся к собесу: positional encodings в 2025 году

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.4K

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.

Читать далее

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Время на прочтение10 мин
Количество просмотров667

Массовые фото из детского сада в родительских чатах редко бывают персональными: на десятках снимков сложно найти именно своего ребенка. Выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ предложили решение — платформу KidFolio, которая с помощью технологий компьютерного зрения и мультимодальных моделей автоматически формирует и отправляет родителям персонализированные фото- и видеоотчеты.

В статье — подробности разработки: от сбора датасета детских лиц до создания собственного бенчмарка и дообучения моделей для генерации текстов.

Читать далее

Георгий Герганов, автор llama.cpp и звукового кейлогера

Время на прочтение6 мин
Количество просмотров15K

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов, мало известен широкой публике.

Читать далее

Часть 4: Mamba — State Space Models vs трансформеры

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров948

Mamba — революция в обработке длинных последовательностей! Mamba — State Space Models vs трансформеры, что лучше?!

Читать далее

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров994

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее
1
23 ...