Я пена морская. Как BERT не справился с анализом простой поэзии

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

Компьютерный анализ и синтез естественных языков

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

Привет, Хабр! За последний год стало ясно, что использование нескольких LLM в агентном режиме приносит существенно больше пользы, чем простая сумма их компьюта по отдельности. Гибкость, распределение ролей и активное взаимодействие моделей позволяет достичь значительных успехов в самых различных задачах, включая создание полезных цифровых ассистентов.
Построением таких систем заняты многие команды по всему миру. Чтобы ускорить прогресс в этом направлении и помочь коллегам, мы в группе «Мультимодальные архитектуры ИИ» AIRI создали новый фреймворк под названием MAESTRO — Multi‑Agent Ecosystem of Task Reasoning and Orchestration. Мы представили его на конференции AI Journey 2025, которая прошла в Москве на прошлой неделе.
В этой статье нам бы хотелось поподробнее рассказать о нашей разработке, описать устройство фреймворка и дать примеры его использования.

Привет, Хабр!
Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз – так сошлись звезды или под влиянием магнитных бурь – мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Команда AI for Devs подготовила перевод статьи о том, как быстро растущие AI-ассистенты меняют саму природу разработки. Их код выглядит безупречно — но всё чаще решает не ту задачу, что стоит перед нами. Где проходит граница между ускорением и самообманом, и какую новую ответственность это накладывает на инженеров?

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Привет, Хабр! В предыдущем материале мы упомянули, что при работе с текстовыми корпусами embedding-модели не всегда оптимальный инструмент. В этой публикации на примере задачи поиска релевантных документов по запросу рассмотрим ограничения такого варианта решения, разберем на практике гибридный подход и оценим его эффективность.
Меня зовут Вадим Скляров, я аналитик компании MWS, и уже по традиции мы будем разбираться в технической задаче с позиции системного и бизнес-анализа:
— сформулируем основные моменты, которые нужно знать и описать, прежде чем передать проект команде разработки;
— рассмотрим, как быстро проверить подходы к решению.

Изобретаем собственный велосипед для детекции AI-generated текстов на Хабре, используя SBERT классификатор. Нет, это не сложно :-)

Привет, Хабр! Меня зовут Даниил Сухан, я занимаюсь разработкой AI-приложений в Just AI. Недавно вышедший AgentKit от OpenAI быстро стал одним из самых обсуждаемых инструментов в сообществе разработчиков.
Мы протестировали платформу для создания ИИ-агентов от OpenAI и сравнили её с нашей Agent Platform. В этой статье разбираем, как создаются агенты на обеих платформах, и в чём заключаются их принципиальные отличия.

Привет, Хабр!
В этой статье разберём, как настроить полный сценарий: от вебхуков в МТС Exolve до автоматической оценки звонков с помощью GigaChat и LangChain. По разным исследованиям, менеджеры по качеству тратят до 60% рабочего времени на прослушивание диалогов и при этом успевают проверять лишь 5–10% звонков. Мы соберём сервис на Python, который автоматически обрабатывает каждый звонок, расшифровывает аудио, прогоняет диалог через модель и возвращает структурированный JSON по чек-листу оценки оператора. Такой подход снижает ручную нагрузку и даёт воспроизводимую оценку в реальном времени.

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:
Модель поддерживает SSML;
Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);
С живыми дикторами были подписаны договоры на запись их голоса;
Запись велась в максимально высоком из практически доступного качестве;
Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;
К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;
Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Ранее я уже писал здесь о языковой модели Déiwos-Lókwos GPT, способной общаться на праиндоевропейском языке, подсказывать слова из праиндоевропейского лексикона и переводить тексты (особенно стихи) на праиндоевропейский. В прошлой заметке я делал реконструктивный эксперимент с переводом своего стихотворения на праиндоевропейский, «обкатывая модель».
В этот раз я решил эксперимент повторить, но дать модели более сложное стихотворение — тоже моего собственного сочинения, но содержащее более сложную лексику.

Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка.
Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет. Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста. Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv.

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Команда AI for Devs подготовила перевод статьи о том, почему увлечение MCP-серверами может быть избыточным. Автор показывает на практике: во многих сценариях агенты справляются куда лучше, когда работают напрямую через Bash и небольшие скрипты, без громоздких серверов, длинных описаний и лишнего контекстного шума.

Рассказываем о нашем новом синтезе речи.
Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения.
Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса.
Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

『Совесть — не ослик: и не такое вывезет.』
_(с) Р. Суржиков, Полари_
『Халдер, проверь, что умеет сир Поросёнок.』
_(с) Д. Мартин, ПЛИО_
Статья будет особенно интересна филологам, которые знают, что научных материалов в Интернете по измерению лексического разнообразия текста не так много, а в Рунете единицы и часто поверхностные.
Преамбула
Видел некоторые баталии в комментариях от читателей на профильных ресурсах: частое сравнение между собой двух высокооценённых циклов в жанре эпическое фэнтези/средневековье — "ПЛИО" VS "Полари". Сходства и различия сводились к тематике, эпохе, локациям, чертам действующих лиц, слогу и другим очевидным и/или нетривиальным литературным приёмам и ходам. В этой статье добавлю контраста на художку и с математической точки зрения.

Каждый продавец знает: одна неудачная фраза - и клиент уходит к конкурентам. Но как отработать навыки общения, не рискуя реальными сделками?
Недавно столкнулся с интересной и очевидной задачей: как организовать обучение продавцов или администраторов общению с клиентами таким образом, чтобы не терять реальные сделки? Тренировки на реальных клиентах - рискованно, ролевые игры с коллегами - не всегда реалистично. Идея пришла сама собой. А что, если дать возможность отрабатывать навыки на виртуальных клиентах, которые ведут себя как настоящие - с капризами, сомнениями, возражениями?
Статья о рабочем прототипе симулятора диалогов с различными типами посетителей.

LinkedIn запускает обновлённый поиск людей на базе генеративного ИИ — и делает это спустя, казалось бы, удивительно долгую паузу для функции, которая напрашивалась сама собой. Появление новой системы происходит три года спустя после выхода ChatGPT и через полгода после запуска ИИ-поиска вакансий в LinkedIn.
Для технических руководителей это — наглядный урок: внедрение генеративного ИИ в настоящих корпоративных условиях, да ещё в масштабе 1,3 млрд пользователей, — процесс медленный, тяжёлый и требующий постоянной прагматичной оптимизации.

Команда AI for Devs подготовила перевод статьи о том, почему свежий отчёт Anthropic о «кибершпионаже с помощью ИИ» вызывает больше вопросов, чем даёт ответов. Автор критикует отсутствие технических деталей, IoC и доказательной базы, а сам документ считает больше маркетинговым, чем аналитическим.