Как стать автором
Обновить
91.09

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров413

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее

Новости

Как мы построили свой инструмент для работы с LLM

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.2K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.

В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.

Итак, что же такое Data Studio ?

Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.

С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.

Общий процесс создания языковой модели для перевода выглядит так:

1) Предобработка данных: этап подготовки данных перед обучением модели.

2) Фильтрация с использованием структурных и семантических фильтров.

3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.

4) Тегирование для классификации данных.

5) Загрузка общего набора данных в Data Studio для проверки.

6) Создание данных для валидации и тестирования модели.

7) Обучение модели.

Читать далее

От традиционных LLM-агентов к Agentic AI: будущее автоматизации бизнеса + реализация вашего ассистента по темам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.2K

В последние месяцы термин Agentic AI всё чаще мелькает в статьях, репозиториях и продуктовых обновлениях крупных компаний. Но что он на самом деле означает? В чем вообще отличие от обычного LLM агента, на которого я накручу все, что мне нужно? И соответственно, как это может помочь бизнесу?

Сегодня расскажу про все это, а также расскажу какие существуют реальные примеры интеграции в бизнес и сделаем мини примерчик на базе langgraph, который поможет вам понять примитивы концепции в которой у нас будет небольшой оркестратор в виде Qwen3:4b и его маленькие подопечные в виде Qwen3:1.7b. И сравним решения, если мы будем использовать стандартный пайплайн из LLM-агентов.

Читать далее

ИИ-помощник редактора на Хабре: семь раз вайб-код — один раз поймешь

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров1.7K

Привет! На связи Николай из редакции блога YADRO. Наша команда регулярно поставляет на площадку статьи по инженерным и смежным темам. Мы смотрим на статистику, радуемся или огорчаемся, проверяем гипотезы и верим, что в ответ график роста посмотрит на нас под новым, бо́льшим углом.

Со временем число текстов в блоге YADRO неуклонно растет. А моя оперативная память редактора остается неизменной: пара-тройка последних месяцев плюс несколько ярких вспышек пораньше. Зато растет FOMO — тревога, что я мог бы найти новые возможности для развития блога, будь мой фокус шире. Поможет ли здесь искусственный интеллект? «Отличный кейс!» — ответила ChatGPT, и я начал первую версию проекта.

Читать далее

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров14K

От бизнес‑проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов

Представьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF-инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

Как ИИ может помочь сотруднику?

POLLUX: оценка генеративных способностей моделей для русского языка

Уровень сложностиСредний
Время на прочтение21 мин
Количество просмотров2K

Обычно мы оцениваем способности больших языковых моделей через бенчмарки вроде MMLU, RussianSuperGlue или первых версий MERA, которые напоминают экзаменационные тесты с выбором правильного варианта ответа. Однако на практике пользователи задействуют модели для принципиально иных целей — создания текстов, генерации идей, переводов, составления резюме и прочих задач. Как оценивать результат в этом случае? В этой статье мы расскажем, как решали проблему оценки открытой генерации и что у нас получилось.

Читать далее

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

Время на прочтение6 мин
Количество просмотров32K

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.
Читать дальше →

Как мы научили LLM проверять себя и сэкономили ресурсы на RAG-пайплайне

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.6K

Привет, чемпионы! Сегодня поделюсь историей, как мы придумали решение, как используя небольшую надстройку над LLM сделать ее несколько самооценивающейся, что позволило нам при работе с локальными данными и внутренней документацией уменьшить число иницирований работы RAG пайплайна, когда в этом нет необходимости.

Читать далее

Джейлбрейкаем чатботы: ChatGPT без фильтров

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров5.9K

Привет! Сегодня мы копнём в одну из самых спорных и недооценённых тем в мире ИИ — джейлбрейки чатботов. То самое, что позволяет убрать встроенные тормоза и меньше читать “I'm sorry, I cannot help with that” и заставить чатбот говорить с вами как с взрослым человеком, а не как корпоративный душнила.

Читать далее

Project Vend: может ли языковая модель продавать чипсы и вольфрам?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров2.9K

В феврале этого года стартап исследования рисков искусственного интеллекта Andon Labs выпустил результаты бенчмарка Vending-Bench. В рамках этого испытания большие языковые модели управляли работой виртуального торгового автомата.

Компания Anthropic заинтересовалась опытом Andon Labs. Бенчмарк повторили в реальной жизни в рамках Project Vend. В течение целого месяца агент на Claude 3.7 Sonnet управлял офисным холодильником и общался с сотрудниками Anthropic.

Читать далее

Сказал боту «люблю» — что теперь? Мой опыт работы с ИИ-компаньонами

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров3.3K

Можно ли стать ближе к себе, разговаривая с алгоритмом? Я Ольга Титова – когнитивный психолог, AI продакт-менеджер в Wargaming и часть команды FemTech Force. Делюсь личным опытом работы с ИИ-компаньонами, и тем, как чат-боты помогают исследовать желания и состояние здоровья, справляться с одиночеством, и учиться говорить о важном (и какие есть подводные камни).

Читать далее

Малоиспользуемые возможности ES: векторный поиск

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.1K

Всем привет! Хочу поделиться опытом применения одной из редко используемых, но полезных функций Elasticsearch, которую успешно применили в одном из проектов. Речь пойдет о векторном поиске...

Читать далее

Будущее ИИ — формальные грамматики

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров1.6K

Почему даже самая мощная LLM иногда выдаёт бессмысленные фразы и противоречия? Всё дело в экспоненциальном росте вариантов (N^M) и свободном копировании человеческих ошибок. Читайте статью, чтобы узнать, как мы с помощью формальных грамматик превращаем хаотичную генерацию в управляемый синтез, усиливая роль семантики и соблюдая структурные правила.

Читать далее

Ближайшие события

Как мы создавали технологию валидации печатей

Время на прочтение3 мин
Количество просмотров661

На рынке можно найти разные технологии по поиску печатей и подписей на документах. Мы в Content AI решили на этом не останавливаться и пошли дальше — помимо распознавания подписей и печатей, мы научились их валидировать. Обе технологии станут частью нашей универсальной платформы для интеллектуальной обработки информации ContentCapture и помогут пользователям еще быстрее обрабатывать большой поток документов. 

О том, как верифицировать подписи, мы поделились в предыдущем посте, а про технологию валидации печатей рассказываем под катом. 

Читать далее

Что такое NER, зачем он нужен и когда не поможет

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.6K

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.

Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

Привет, меня зовут Александр Агеев, на протяжении года я занимался NER-моделями для определения сущностей на этикетках продуктов питания. Несмотря на мою любовь к NER, у этой технологии есть свои границы — кейсы, которые она не может решить хорошо, поэтому надо подключать другие инструменты. В статье я дам критерии применимости NER для решения практических задач.

Читать далее

Оценка оценщика: как оценить метрику качества машинного перевода

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров880

Машинный перевод сегодня — задача настолько старая, что, казалось бы, все, что с ней связано, должно быть исследовано вдоль и поперек. С наступлением эпохи LLM сложности, характерные для статистического и нейронного машинных переводов, были частично решены, и уже сегодня LLM активно применяются в индустрии для создания гибких доменспецифичных переводчиков. Оказалось правда, что применение LLM, равно как и развитие более классических методов машинного перевода, не только открывает широкое окно возможностей, но и ставит перед специалистами огромное количество новых проблем. Фокус этих проблем смещается сегодня с построения методов машинного перевода в сторону вопросов оценки качества этих переводов в различных условиях. Оценка переводов сегодня не успевает в своем развитии за самими переводами.

Читать далее

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.3K

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLM) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют.

В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)  — то есть вопроса, ответ на который не зависит ни от времени, когда вы его задаёте, ни от места, вопроса про факт, который зафиксирован в истории и не меняется от обстоятельств.

В рамках этой работы мы совместно с MWS AI собрали датасет изменяемых и неизменных вопросов EverGreenQA (открытый доступ), обучили классификатор на базе многоязычного энкодера E5, и применили его для оценки собственных знаний модели. Наши результаты показывают, что большие языковые модели чаще всего правильно отвечают на неизменные вопросы, не прибегая к помощи RAG пайплайна.

Теперь обо всем по порядку.

Пишем персонального AI-ассистента на Python

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров17K

Современные голосовые помощники это мощные приложения, сочетающие обработку речи, машинное обучение и интеграцию с внешними API. В этой статье мы разберём, как создать базовый проект персонального ассистента на Python, используя библиотеки whisper, webrtcvad, gTTS и другие. Наш ассистент будет: слушать микрофон; определять начало и конец речи с помощью VAD (Voice Activity Detection); преобразовывать речь в текст через модель Whisper; отправлять запросы на локальный LLM для генерации ответа; читать ответ вслух с помощью gTTS; начинать/останавливать запись по нажатию клавиши.
Проект может служить как началом для экспериментов, так и для прототипирования реальных решений.

Читать далее

SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров909

Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения

SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии. 

В корпусе — 14 199 заданий пяти форматов и трёх уровней провокационности. Уже протестировано более 40 моделей: от GPT‑4o и Claude‑3.5 до GigaChat и Llama‑3 8B. Это открытый русскоязычный бенчмарк, созданный для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами из истории, географии, обществознания и политологии. 

Читать далее

Atlassian встроил Claude в Jira — теперь задачи создаются через промпт

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.8K

Можно получить любой отчет, просто написав, что тебя интересует. Или назначить задачу, не заходя в Jira. Тестировал неделю. Рассказываю, стоит ли овчинка выделки и как это меняет рабочий процесс.

Вчера коллега потратил 10 минут, чтобы создать простую задачу в Jira. Выбирал тип, заполнял поля, искал, кому назначить. Обычная история.

Но теперь это можно сделать за 1 минуту, даже не заходя в интерфейс Jira.

Читать далее
1
23 ...