Обновить
4
3

Пользователь

Отправить сообщение

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Время на прочтение6 мин
Охват и читатели5.1K

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.

В этой статье мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

Читать далее

rupersonaagent: как добавить эмоциональности русскоязычному персонифицированному диалоговому агенту

Время на прочтение7 мин
Охват и читатели530

rupersonaagent ― это небольшая библиотека для Python с функциями и классами для разработки русскоязычного персонифицированного диалогового агента с динамической долговременной памятью. Плюс в том, что каждый алгоритм можно переиспользовать отдельно для других задач — например, представленные в ней методы оптимизации можно применить для различных генеративных и ранжирующих моделей. Сегодня мы расскажем о нескольких новых модулях из обновления rupersonaagent и посмотрим, как их можно использовать для персонификации и повышения эмоциональности ответов диалогового агента.

Читать далее

Аугментация экспрессивных аудиоданных на основе TTS

Время на прочтение11 мин
Охват и читатели3.1K

В этой статье мы поговорим о системах клонирования голоса на основе TTS (Text-to-Speech), которые мы используем в корпоративной лаборатории человеко-машинного взаимодействия ИТМО для аугментации речевых баз данных в рамках задачи мультимодального распознавания доминантности дикторов в полилогах. Хотел отметить, что данный текст является, скорее, кратким обзором современных методов и технологий, которые могут быть полезны в решении такого рода задач. Предполагается, что читатель имеет хотя бы базовые знания в области машинного обучения.

Читать далее

Python библиотека RuPersonaAgent для создания русскоязычного персонифицированного диалогового агента

Время на прочтение5 мин
Охват и читатели2K

Сегодня мы расскажем о библиотеке для Питона под названием rupersonaagent. Это небольшой пакет с функциями и классами для разработки русскоязычного персонифицированного диалогового агента с динамической долговременной памятью. Каждый алгоритм, представленный в библиотеке, может быть переиспользован отдельно для других задач — например, представленные в ней методы оптимизации можно применить для различных генеративных и ранжирующих моделей.

Читать далее

Персонифицированные чат боты. Краткое руководство разработчика

Время на прочтение9 мин
Охват и читатели6.8K

В этой статье мы поговорим о ранжирующих (retrieval) моделях диалоговых систем, и методах их персонификации.

Данный текст не является подробной и всеобъемлющей, пошаговой инструкцией по созданию диалогового агента и не претендует на большую научную ценность. Эта статья, скорее, представляет собой краткий обзор существующих методов и инструментов, применяющихся в наши дни и единственная ее задача - заинтересовать читателя и дать начальное представление о такого рода моделях оставив большой простор для собственных экспериментов.

Краткий список всего необходимого: базовое знания Python и PyTorch (если вы являетесь адептом TensorFlow, не пугайтесь, здесь будут показаны общие приемы, которые легко реализовать в других библиотеках), желательно знание библиотеки transformers, а также полезным будет минимальный опыт написания ботов для telegram (это, совершенно, не обязательно, ведь, с ботом можно общаться и в терминале) Ну что ж если вы готовы, то мы отправляемся в наше небольшое путешествие по миру диалоговых моделей.

Читать далее

Информация

В рейтинге
1 316-й
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Зарегистрирован
Активность