Как стать автором

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

СтатьиПостыНовостиАвторыКомпании

atomlib 31 июл в 20:09

Системы ценностей больших языковых моделей

Простой

44 мин

6.7K

Искусственный интеллектNatural Language Processing*Научно-популярноеМашинное обучение*Будущее здесь

Дайджест

Каждый раз, когда человечество создаёт очередной инструмент на машинном обучении, оно сперва любуется пользой от его работы, а потом пугается своего отражения внутри. С большими языковыми моделями история повторилась с ускорением. От восторга перед ответами ChatGPT до шока от таблиц, где жизнь человека глубоко неравноценна, прошло меньше двух лет.

Звучит странно, но языковые модели предвзяты. У них есть политические взгляды, любимые расы и даже люди, которыми они не прочь пожертвовать. Но обо всём по порядку.

Читать далее

+57

ContentAI_Team 31 июл в 14:30

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

4 мин

471

Блог компании Content AIИскусственный интеллектNatural Language Processing*

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе.

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture. Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat.

Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов.

Читать далее

+3

jet-47 30 июл в 08:44

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Средний

7 мин

1.4K

Блог компании YADROИскусственный интеллектВысоконагруженные системы*Машинное обучение*Natural Language Processing*

Кейс

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей.

Читать далее

+21

Aleron75 29 июл в 22:50

LLMops дома: быстрое разворачивание и настройка инфраструктуры с помощью Langfuse

Простой

6 мин

2K

Блог компании Data Feeling SchoolМашинное обучение*Natural Language Processing*

Обзор

Задумывались ли вы о том, как сделать трассировку в ML/LLM‑пайплайнах? А может, сталкивались с ситуацией, когда хотелось быстро понять, почему система сработала не так, как ожидалось, и в каком месте всё пошло не так? Мы вот задумались и сталкивались, поэтому расскажу о том, что пробуем сейчас.

В этой статье поделюсь нашим опытом использования Langfuse - мощного инструмента для трассировки и оценки пайплайнов, построенных на больших языковых моделях. Мы рассмотрим ключевые возможности Langfuse, особенности интеграции с Python SDK, покажем, как развернуть инфраструктуру локально, и подключим локальную LLM‑модель из Ollama для анализа результатов.

Читать далее

+5

AnatolyBelov 29 июл в 04:00

Автоматизация поддержки клиентов на основе контекстной близости вопросов

6 мин

408

Программирование*Python*Искусственный интеллектУправление продажами*Natural Language Processing*

Кейсовая задача — предоставить клиентам возможность составлять вопрос на естественном языке, а не искать вопрос в списке FAQ‑раздела сайта. При этом система должна выдавать ответ из существующей базы знаний «Вопрос‑Ответ» существующего FAQ‑раздела.

Задача реализована с помощью определения контекстной близости вопросов.

Получился довольно экономичный и эффективный способ автоматизации поддержки клиентов, позволяющий обеспечивать релевантные и быстрые ответы.

Читать далее

+3

vened 25 июл в 19:48

Эмбеддинг с навесом: перегрузка лексических парсеров вложением неявных ссылок

Сложный

6 мин

779

Изучение языковНаучно-популярноеNatural Language Processing*Читальный зал

FAQ

Некоторые предложения на английском языке кажутся абсурдными на первый взгляд, на второй взгляд – странными, но уже третий взгляд позволяет обнаружить интересное лингвистическое явление, связанное с рекурсией. Хорошо подобранная, правильная вложенность грамматических конструкций может привести в зависшее состояние даже встроенный парсер человека, а не только машины. Все примеры в статье – на английском, а объяснения – на русском.

Читать далее

+2

Andrey_Biryukov 25 июл в 11:00

15 примеров применения Natural Language Processing

8 мин

1.7K

Блог компании OTUSNatural Language Processing*Машинное обучение*Data Mining*

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

В этой статье мы попробуем разобраться с тем, как используется NLP для решения реальных задач и рассмотрим 15 примеров использования данной технологии и машинного обучения.

Читать далее

+3

averkij 25 июл в 09:18

DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке

Средний

12 мин

2K

Блог компании СберБлог компании Open Data ScienceМашинное обучение*Open source*Natural Language Processing*

Обзор

С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).

Если коротко, RAG — это способ «подкормить» LLM свежими данными: перед генерацией ответа модель получает не только сам вопрос, но и релевантные тексты, найденные внешней поисковой системе или во внутренней базе знаний. Идея звучит просто, но как понять, насколько хорошо это работает? Какие документы действительно помогли модели, а какие запутали её ещё больше? А главное — как сравнить разные RAG-системы между собой по-честному?

Оценка таких систем — нетривиальная задача. С одной стороны, нужно учитывать и качество извлечённых документов, и финальный ответ модели. С другой — важно избегать контаминации: когда модель «угадывает» правильный ответ просто потому, что уже видела его в процессе обучения. Это особенно актуально при использовании статических наборов данных вроде Natural Questions или HotpotQA: они давно «протекли» в открытые датасеты, в том числе для обучения популярных LLM.

Читать далее

+18

Daniil_Berezin 24 июл в 15:17

Немного про SPARQL, или как мы заняли призовое место на Text-To-SPARQL Challenge на ESWC 2025

Средний

10 мин

612

Блог компании AIRIМашинное обучение*Искусственный интеллектАлгоритмы*Natural Language Processing*

Кейс

Привет, Хабр! Мы — Даниил Березин и Роман Авдеев, магистранты кафедры банковских информационных технологий в МФТИ (СберТех).

В рамках дипломной работы под руководством кандидата технических наук, научного сотрудника группы «Прикладное NLP» AIRI Олега Сомова мы участвовали в соревновании Text‑To‑SPARQL Challenge на конференции ESWC 2025 (Порторож, Словения).

Среди 9 команд из ведущих европейских исследовательских центров мы заняли:

🥉 3-е место в треке DBPedia

🏅 5-е место в треке с корпоративным графом знаний

В этой статье расскажем, как проходило соревнование, какие подходы мы пробовали и какие уроки извлекли.

Читать далее

+4

AIgent_Smith 24 июл в 09:05

RuModernBERT и USER2: эволюция русскоязычных энкодеров

9 мин

1.6K

Блог компании VKМашинное обучение*Искусственный интеллектNatural Language Processing*

Кейс

Привет, Хабр!

В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов: модели, которые преобразуют любой текст, от анекдота до официального запроса в техподдержку, в векторное представление — эмбеддинг. Эмбеддинги отражают важные свойства текста, его семантику. Все энкодеры в NLP можно условно разделить на две группы:

•Pre‑train‑модели (BERT, RoBERTa, DeBERTa).
Учатся основным языковым закономерностям, но не умеют явно создавать единый эмбеддинг для всего текста и требуют дообучения под конкретную задачу.

•Энкодеры текстов (SBERT).
Сразу выдают готовые семантические эмбеддинги — используются в FAISS, Milvus, других векторных БД. Поверх векторного представления можно применять классические алгоритмы ML. Для оценки схожести текстов просто считаем косинусную близость между эмбеддингами.

В этой статье мы расскажем о технических деталях обучения таких моделей: как возникла идея, как мы её реализовывали, что получилось в итоге.

Читать далее

+36

Lhody 22 июл в 08:42

Как мы строим умный «файрвол» для LLM

Средний

5 мин

1.5K

Блог компании MWS AIИскусственный интеллектИнформационная безопасность*Natural Language Processing*

Кейс

Привет, Хабр! Я Данила Катальшов, старший промпт-инженер в команде фундаментальных исследований MWS AI. Недавно вместе с коллегами из корейского университета KOREATECH мы опубликовали научную статью, в которой представили новый фреймворк для борьбы с такими грехами LLM, как галлюцинации, генерация токсичного контента и уязвимость к промпт‑атакам. Мы его назвали AVI — Aligned Validation Interface. По сути это внешний, гибкий и независимый от модели фильтр, работающий как умный файрвол для LLM. Почитать на научном языке о нашем подходе можно в журнале MDPI. Applied Sciences. Здесь же я постараюсь чуть менее научно и уж точно покороче пересказать его суть.

Заинтересовавшиеся – велком под кат.

Читать далее

+9

yakvenalex 22 июл в 05:04

Как научить нейросеть работать руками: создание полноценного ИИ-агента с MCP и LangGraph за час

24 мин

9K

Блог компании AmveraNatural Language Processing*Искусственный интеллектPython*Программирование*

Туториал

Надоели чат‑боты, которые только болтают? Создаём настоящего ИИ‑помощника: читает файлы, ищет в сети, запоминает всё. LangGraph + MCP — пошаговый гайд для Python‑разработчиков. Меньше теории, больше работающего кода.

— Два готовых агента: классификатор вакансий + файловый помощник
— Поддержка Ollama, OpenAI, DeepSeek — выбирайте любую модель
— Асинхронная архитектура с обработкой ошибок
— Полная интеграция в Python‑проекты без no‑code конструкторов
— Код готов к продакшену: логирование, retry‑механизмы, конфигурация

От настройки окружения до рабочего агента за час.

Читать далее

+21

ai-talent 18 июл в 11:35

AFlow: как создавать мультиагентные системы без программиста

Сложный

5 мин

1.7K

Искусственный интеллектМашинное обучение*Natural Language Processing*Python*

Обзор

Привет, Хабр!

Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.

В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберёмся, как это работает и почему это важно.

Читать далее

+3

einhorn 17 июл в 14:00

Language Dove: разбираем китайскую и не только грамоту

Простой

9 мин

3.2K

IT-эмиграцияNatural Language Processing*Машинное обучение*Изучение языковИскусственный интеллект

Кейс

Я довольно давно живу в Армении и изучаю армянский язык для получения гражданства («вы должны уметь читать любой документ» — сказали мне в миграционном центре).

Армянский язык очень сложен, и у меня возникла идея написать приложение для иммерсивного (dove — нырнул, погрузился) чтения на иностранном языке с пословным контекстуальным переводом, которое способно работать с любыми языками, даже с самыми редкими и сложными.

Читать далее

+17

Batiskaf18 17 июл в 13:37

Некоторые мысли о преподавании (и) ИИ

Средний

8 мин

798

Natural Language Processing*

Мнение

Эта статья — набор мыслей о влиянии искусственного интеллекта на ландшафт современного образования в смысле рисков и возможностей, которые он несёт. Мысли несколько сумбурные, но, как мне кажется, своевременные.

Процитирую свой же текст, опубликованный в телеграм‑канале:

«В последнее время образовательное сообщество охватила паника, связанная с бессильностью по отношению к использованию AI для списывания. С проблемой столкнулись не только школы и сравнительно простые курсы университетского уровня, но и такие мастодонты как шад (https://habr.com/ru/articles/881 858/). Высказаться о новом ландшафте образовательной реальности успели и Сальман Хан, и Эрик Шмидт, и Билл Гейтс.

Проблема не обошла стороной ни гуманитарные науки, ни западные университеты. Один из первых скандалов, связанных со списыванием, произошел в 2022 году, когда Даррен Хик, профессор философии университета Фурмана (США) с удивлением обнаружил курсовую работу, полностью написанную ChatGPT. В 2022 году это ещё было в новинку. Фурман распознал статическую нетипичность работы, а также методом пристального детективного анализа обнаружил колоссальное количество фактических ошибок в работе, ни одна из которых изначально не бросалась в глаза.

С тех пор всё стало хуже. LLM решают почти любые мыслимые задачи любой технической области, зачастую не оставляя явных артифактов своей работы. Звучали разные идеи по преодолению этого кризиса: от использования специальных ребусоподобных форматов заданий (капча и задача — 2 в 1) и попыток формулировать задания с учётом уязвимостей LLM до тотального возвращения к аналоговым форматам сдачи экзаменов.

Читать далее

+8

Aleron75 16 июл в 04:15

Cache-Augmented Generation против RAG: как ускорить инференс без потери качества

Простой

5 мин

2.7K

Блог компании Data Feeling SchoolNatural Language Processing*Машинное обучение*

Аналитика

Привет, чемпионы! Сегодня расскажу про очень интересную вещь, которая в определенных ситуаций, может быть выгоднее, чем RAG, а также свой опыт в проведении R&D данной технологии и с помощью какой надстройки можно усилить RAG, чтоб прийти к середине между CAG и RAG.

В настоящее время существует множество техник для улучшения качества ответов LLM при работе с частными или корпоративными данными. В этой статье я постараюсь кратко и понятно объяснить:

• что такое CAG

• в каких случаях он действительно применим

• с какими подводными камнями столкнулись мы, а можете и вы при его использовании,

• и какую надстройку можно внедрить в RAG, чтобы приблизиться к эффективности CAG, не теряя гибкости ретривера.

Читать далее

0

MarkovM 13 июл в 10:08

Свой ChatGPT на документах: делаем RAG с нуля

Средний

6 мин

16K

Блог компании AmveraИскусственный интеллектМашинное обучение*Natural Language Processing*Анализ и проектирование систем*

Туториал

Всем привет! Наверняка у вас были ситуации, когда нужно быстро найти что-то в длинном документе-договоре, инструкции или отчёте. Сегодня я покажу, как сделать своего помощника, который будет отвечать на такие вопросы автоматически. Соберем RAG с нуля: загрузим документы, "нарежем" их на куски, проиндексируем в векторной базе данных Qdrant и подключим LLaMA.

Если вы увидели незнакомые слова — не пугайтесь, далее я расскажу об этом подробно.

Читать далее

+7

atomlib 12 июл в 00:21

Исследование METR: использование Cursor замедляет опытных разработчиков на 19 %

Простой

20 мин

22K

Машинное обучение*Программирование*Natural Language Processing*Искусственный интеллектТекстовые редакторы и IDE*

Дайджест

Считается устоявшейся истиной, что инструменты автодополнения кода и прочая помощь от больших языковых моделей помогают программировать быстрее. Исследование организации METR ставит это фактоид под сомнение и даже демонстрирует обратный эффект.

В рамках анализа труда 16 программистов обнаружилось, что ИИ замедляет человека на 19 %. Это противоречит мнению экспертов индустрии машинного обучения, экономистов и самих участников эксперимента. Важно, что проверка шла не на очередных бенчмарках или предложениях решать алгоритмические задачи на скорость, а в обычной работе людей.

Читать далее

+56

mrcoolinhabr 11 июл в 16:12

AutoPrompting: как улучшить промпты, сэкономив время и ресурсы промпт-инженеров

Средний

8 мин

9.8K

Искусственный интеллектМашинное обучение*Natural Language Processing*

Обзор

В этой статье мы говорим об автопромптинге - что это такое, зачем он нужен и как он помогает уже сегодня промпт-инженерам.

Читать далее

+15

Flexits 11 июл в 11:12

Используем API Speech2Text для распознавания записей разговоров

Простой

8 мин

1.6K

.NET*C#*Программирование*ЗвукNatural Language Processing*

Туториал

В нашей компании анализируются звонки менеджеров отдела продаж для оценки их эффективности, устранения недочётов и улучшения сервиса. На сегодняшний день это составляет немалый массив ручной работы, для облегчения которой мы задумали привлечь технологии искусственного интеллекта. Идея следующая: забираем записи звонков, распознаём речь (преобразовываем в текст), подключаем LLM для анализа текста, знакомимся с выводами, при необходимости (например, возникновении каких-то аномалий) контролируем происходящее вручную.

Распознавание аудио решили делать через сервис Speech2Text, пример использования API которого я и покажу в этой статье. В черновом варианте получаем примерно следующую схему работы (нас сейчас интересует прямоугольник с подписью Speech2Text connector):

Читать далее

+1

1

2 3 ...