Обновить
101.2

Natural Language Processing *

Компьютерный анализ и синтез естественных языков

Сначала показывать
Порог рейтинга
Уровень сложности

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели8.5K

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite, лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Теперь мы выкладываем в open source и все остальные модели линейки Kandinsky 5.0: Video Pro и Image Lite!

Читать далее

Новости

Я пена морская. Как BERT не справился с анализом простой поэзии

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.6K

Небольшой опыт использования модели для определения эмоций. Я пытался найти эмоции у Цветаевой с помощью Python. Да не смог.

Читать далее

MAESTRO — новый фреймворк для построения мультиагентных систем и цифровых ассистентов на основе LLM

Уровень сложностиСложный
Время на прочтение19 мин
Охват и читатели6.4K

Привет, Хабр! За последний год стало ясно, что использование нескольких LLM в агентном режиме приносит существенно больше пользы, чем простая сумма их компьюта по отдельности. Гибкость, распределение ролей и активное взаимодействие моделей позволяет достичь значительных успехов в самых различных задачах, включая создание полезных цифровых ассистентов.

Построением таких систем заняты многие команды по всему миру. Чтобы ускорить прогресс в этом направлении и помочь коллегам, мы в группе «Мультимодальные архитектуры ИИ» AIRI создали новый фреймворк под названием MAESTRO — Multi‑Agent Ecosystem of Task Reasoning and Orchestration. Мы представили его на конференции AI Journey 2025, которая прошла в Москве на прошлой неделе.

В этой статье нам бы хотелось поподробнее рассказать о нашей разработке, описать устройство фреймворка и дать примеры его использования.

Читать далее

Как я Альфе новый навык делал и что из этого вышло

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели7.1K

Привет, Хабр!

Время от времени я возвращаюсь к своему pet-проекту голосового ассистента с кодовым именем «Альфа», который разрабатывался как приватный голосовой интерфейс (а-ля «умная колонка») для управления своим «Умным домом». И в этот раз — так сошлись звезды или под влиянием магнитных бурь — мне очень захотелось добавить новый навык. А что из этого вышло, читайте далее.

Читать далее

Почему LLM врут настолько убедительно?

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели7.5K

Команда AI for Devs подготовила перевод статьи о том, как быстро растущие AI-ассистенты меняют саму природу разработки. Их код выглядит безупречно — но всё чаще решает не ту задачу, что стоит перед нами. Где проходит граница между ускорением и самообманом, и какую новую ответственность это накладывает на инженеров?

Читать далее

Нейросеть на смене, или как мы избавили супервайзеров от ручной прослушки и автоматизировали контроль качества звонков

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5K

Мы построили систему речевой аналитики на базе искусственного интеллекта. Она распознаёт речь, выделяет проблемные диалоги и автоматически оценивает качество звонков. Рассказываю, как мы выстраивали пайплайн распознавания и анализа речи, боролись с искажениями моделей и добивались того, чтобы ИИ понимал разговорную речь не хуже человека.

Читать далее

За пределами embeddings: комбинируем векторный и лексический поиск для повышения релевантности

Уровень сложностиСредний
Время на прочтение13 мин
Охват и читатели8.1K

Привет, Хабр! В предыдущем материале мы упомянули, что при работе с текстовыми корпусами embedding-модели не всегда оптимальный инструмент. В этой публикации на примере задачи поиска релевантных документов по запросу рассмотрим ограничения такого варианта решения, разберем на практике гибридный подход и оценим его эффективность.

Меня зовут Вадим Скляров, я аналитик компании MWS, и уже по традиции мы будем разбираться в технической задаче с позиции системного и бизнес-анализа:

— сформулируем основные моменты, которые нужно знать и описать, прежде чем передать проект команде разработки;

— рассмотрим, как быстро проверить подходы к решению.

Читать далее

Пишем свой классификатор AI-generated статей для Хабра за ночь

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели7.7K

Изобретаем собственный велосипед для детекции AI-generated текстов на Хабре, используя SBERT классификатор. Нет, это не сложно :-)

Читать далее

OpenAI AgentKit vs Just AI Agent Platform: где ограничения, а где возможности?

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели5.4K

Привет, Хабр! Меня зовут Даниил Сухан, я занимаюсь разработкой AI-приложений в Just AI. Недавно вышедший AgentKit от OpenAI быстро стал одним из самых обсуждаемых инструментов в сообществе разработчиков.

Мы протестировали платформу для создания ИИ-агентов от OpenAI и сравнили её с нашей Agent Platform. В этой статье разбираем, как создаются агенты на обеих платформах, и в чём заключаются их принципиальные отличия.

Читать далее

AI-аудит звонков по чек-листу: делаем автоматическую оценку через МТС Exolve и GigaChat

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5.3K

Привет, Хабр!

В этой статье разберём, как настроить полный сценарий: от вебхуков в МТС Exolve до автоматической оценки звонков с помощью GigaChat и LangChain. По разным исследованиям, менеджеры по качеству тратят до 60% рабочего времени на прослушивание диалогов и при этом успевают проверять лишь 5–10% звонков. Мы соберём сервис на Python, который автоматически обрабатывает каждый звонок, расшифровывает аудио, прогоняет диалог через модель и возвращает структурированный JSON по чек-листу оценки оператора. Такой подход снижает ручную нагрузку и даёт воспроизводимую оценку в реальном времени.

Читать далее

Мы опубликовали стабильный, быстрый, качественный и доступный синтез для 20 языков России

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели17K

Представляем наш синтез для языков России и СНГ. В этот раз получилось покрыть 20 языков, всего 95 голосов. От старой демки этот релиз отличается следующим:

Модель поддерживает SSML;

Модель стала быстрее ещё на 20-25% (она и так была супер быстрой);

С живыми дикторами были подписаны договоры на запись их голоса;

Запись велась в максимально высоком из практически доступного качестве;

Для ряда языков опубликованы модели простановки ударений и / или словари с ударениями в рамках silero-stress;

К модели синтеза применены все оптимизации, как к нашей прошлой публичной модели;

Для демки мы брали шумные публичные данные низкого качества. В этот раз всё хорошо - как следствие существенно выросло качество синтеза.

Читать далее

Молитва любви, или трудности перевода на праиндоевропейский с помощью нейросети

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели10K

Ранее я уже писал здесь о языковой модели Déiwos-Lókwos GPT, способной общаться на праиндоевропейском языке, подсказывать слова из праиндоевропейского лексикона и переводить тексты (особенно стихи) на праиндоевропейский. В прошлой заметке я делал реконструктивный эксперимент с переводом своего стихотворения на праиндоевропейский, «обкатывая модель».

В этот раз я решил эксперимент повторить, но дать модели более сложное стихотворение — тоже моего собственного сочинения, но содержащее более сложную лексику.

Читать далее

Голосовой ввод для Windows через Vosk своими руками

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели11K

Я пытался найти в Windows похожий встроенный инструмент или готовое решение, но все они либо брали на себя слишком много неактуального для меня функционала, так как задумывались для людей с ограниченными возможностями, либо были платными, либо были недоступны для русского языка.

Лучшим выходом из моей ситуации было создать свое минималистичное решение, и вот как это было:

Читать далее

Ближайшие события

Искусственный разум под микроскопом: ученые разобрали отличительные признаки сгенерированных текстов

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели11K

Команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет.  Анализируя внутренние состояния глубоких слоев языковой модели, ученые смогли выделить и интерпретировать численные признаки, отвечающие за стилистику, сложность и «степень уверенности» текста. Работа принята на конференцию Findings of ACL 2025 и опубликована в виде препринта на портале arXiv. 

Читать далее

Мы добавили поддержку ещё 19 языков России и СНГ в проект silero-stress

Уровень сложностиПростой
Время на прочтение2 мин
Охват и читатели11K

Мы недавно писали на Хабр о нашей библиотеке silero-stress для простановки ударения в обычных словах и омографах. Теперь у нашего проекта silero-stress вышла версия v1.2, в которую вошло следующее:

Что вошло?

А что, если MCP вам вообще не нужен?

Уровень сложностиПростой
Время на прочтение13 мин
Охват и читатели2.9K

Команда AI for Devs подготовила перевод статьи о том, почему увлечение MCP-серверами может быть избыточным. Автор показывает на практике: во многих сценариях агенты справляются куда лучше, когда работают напрямую через Bash и небольшие скрипты, без громоздких серверов, длинных описаний и лишнего контекстного шума.

Читать далее

Наш новый LLM-based синтез речи

Уровень сложностиПростой
Время на прочтение16 мин
Охват и читатели12K

Рассказываем о нашем новом синтезе речи.

Мы так и называем его — «новый синтез», или GigaTTS. Под капотом у него GigaChat 3b, аудио адаптер, собственный токенизатор речи и 30 тысяч часов данных. Никаких диффузий. Очень много работы было проделано над обучением модели, на студии и при подготовке данных для обучения.

Новый синтез до мурашек естественный. Он говорит как живой человек, умеет смеяться и выражать эмоции со всеми нюансами. По метрикам он обгоняет наши прошлые модели в 2-4 раза, особенно большой выигрыш по естественности голоса.

Под катом вас ждем большой технический обзор того, как мы пришли к такому качеству. Покажем freespeech и специально сделанные голоса операторов колл-центров. Поделимся деталями, как у нас получился синтез текста любой длины, prompt following и клонирование голосов

Читать далее

Экономичный NLP-анализ на примерах популярных фэнтези

Время на прочтение13 мин
Охват и читатели7.6K

『Совесть — не ослик: и не такое вывезет.』
_(с) Р. Суржиков Полари_

『Халдер, проверь, что умеет сир Поросёнок.』
(с) Д. Мартин ПЛИО_

⋮ [Дисклеймер].
Беспристрастность. Анализ не претендует на безошибочную точность и не рекламирует труд писателей. Перевод романа "Игра престолов" книги_1 из цикла "Песнь льда и огня" (далее "ПЛИО") с английского Ю. Соколов. Скрипты для NLP-анализа написаны мной, в основном пользовался ими для анализа и поддержания качества собственных материалов, а также парсил международные лонгриды для сравнения и оценки авторитетности персон.

Открыть исследование

Как тренироваться и не терять клиентов. Симулятор диалогов с клиентами на основе Искусственного Интеллекта (GigaChat)

Время на прочтение10 мин
Охват и читатели3.9K

Каждый продавец знает: одна неудачная фраза - и клиент уходит к конкурентам. Но как отработать навыки общения, не рискуя реальными сделками?

Недавно столкнулся с интересной и очевидной задачей: как организовать обучение продавцов или администраторов общению с клиентами таким образом, чтобы не терять реальные сделки? Тренировки на реальных клиентах - рискованно, ролевые игры с коллегами - не всегда реалистично. Идея пришла сама собой. А что, если дать возможность отрабатывать навыки на виртуальных клиентах, которые ведут себя как настоящие - с капризами, сомнениями, возражениями?

Статья о рабочем прототипе симулятора диалогов с различными типами посетителей.

Читать далее

Как LinkedIn масштабировал поиск людей на 1,3 млрд пользователей

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.3K

LinkedIn запускает обновлённый поиск людей на базе генеративного ИИ — и делает это спустя, казалось бы, удивительно долгую паузу для функции, которая напрашивалась сама собой. Появление новой системы происходит три года спустя после выхода ChatGPT и через полгода после запуска ИИ-поиска вакансий в LinkedIn.

Для технических руководителей это — наглядный урок: внедрение генеративного ИИ в настоящих корпоративных условиях, да ещё в масштабе 1,3 млрд пользователей, — процесс медленный, тяжёлый и требующий постоянной прагматичной оптимизации.

Читать далее
1
23 ...

Вклад авторов