Как стать автором
Обновить

Пишем голосового ассистента на Python

Время на прочтение 16 мин
Количество просмотров 120K
Python *Машинное обучение *Разработка под Windows *Голосовые интерфейсы *
Туториал
Из песочницы

Введение


Технологии в области машинного обучения за последний год развиваются с потрясающей скоростью. Всё больше компаний делятся своими наработками, тем самым открывая новые возможности для создания умных цифровых помощников.

В рамках данной статьи я хочу поделиться своим опытом реализации голосового ассистента и предложить вам несколько идей для того, чтобы сделать его ещё умнее и полезнее.

image
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 5

Нейросети для Natural Language Inference (NLI): логические умозаключения на русском языке

Время на прочтение 9 мин
Количество просмотров 13K
Python *Семантика *Программирование *Машинное обучение *Natural Language Processing *

NLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!

До сих пор в открытом доступе не было нейросетей, специализированных на задаче NLI для русского языка, но теперь я обучил целых три: tiny, twoway и threeway. Зачем эти модели нужны, как они обучались, и в чём между ними разница – под катом.

Читать далее
Всего голосов 24: ↑24 и ↓0 +24
Комментарии 3

Новый запуск курса Natural Language Processing

Время на прочтение 2 мин
Количество просмотров 5K
Блог компании Open Data Science Машинное обучение *Искусственный интеллект Natural Language Processing *

TL;DR: Этой осенью сообщество Open Data Science и компания Huawei делают новый запуск курса по обработке естественного языка. Страница курса вот. Первая лекция - в среду, 14 сентября.

Читать далее
Всего голосов 8: ↑7 и ↓1 +6
Комментарии 0

Проблемы современного машинного обучения

Время на прочтение 41 мин
Количество просмотров 37K
Блог компании Open Data Science Машинное обучение *Научно-популярное Искусственный интеллект Natural Language Processing *
✏️ Технотекст 2021

Во многих популярных курсах машинного и глубокого обучения вас научат классифицировать собак и кошек, предсказывать цены на недвижимость, покажут еще десятки задач, в которых машинное обучение, вроде как, отлично работает. Но вам расскажут намного меньше (или вообще ничего) о тех случаях, когда ML-модели не работают так, как ожидалось.

Частой проблемой в машинном обучении является неспособность ML-моделей корректно работать на большем разнообразии примеров, чем те, что встречались при обучении. Здесь идет речь не просто о других примерах (например, тестовых), а о других типах примеров. Например, сеть обучалась на изображениях коровы, в которых чаще всего корова был на фоне травы, а при тестировании требуется корректное распознавание коровы на любом фоне. Почему ML-модели часто не справляются с такой задачей и что с этим делать – мы рассмотрим далее. Работа над этой проблемой важна не только для решения практических задач, но и в целом для дальнейшего развития ИИ.

Читать далее
Всего голосов 104: ↑103 и ↓1 +102
Комментарии 26

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

Время на прочтение 4 мин
Количество просмотров 3.2K
Управление проектами *Читальный зал Искусственный интеллект Natural Language Processing *
Из песочницы

Как сделали 9 NLU ботов за 5 дней с интеграциями на чистом Low-code

В данном проекте перед нами стояла задача – с помощью чат-бота разгрузить КЦ, а также оперативно и качественно отвечать на вопросы студентов и школьников группы образовательных организаций.

Читать далее
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 1

Автоматическое реферирование научных статей. Обзор работ

Время на прочтение 19 мин
Количество просмотров 1.4K
Блог компании Unistar Digital | Юнистар Диджитал Семантика *Natural Language Processing *

Задача автоматического реферирования научного текста формулируется следующим образом: на основе текста научной статьи и, возможно, некоторой другой информации о ней, например цитат и ссылок на эту статью, содержащихся в других работах, требуется породить с помощью алгоритмов автоматической обработки текста небольшой сжатый реферат, который при этом будет максимально точно и полно передавать основные идеи, методы и результаты, описанные в статье.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Комментарии 0

TAPE: первый бенчмарк для few-shot оценки языковых моделей на русском языке

Время на прочтение 9 мин
Количество просмотров 2.3K
Блог компании SberDevices Машинное обучение *Искусственный интеллект Natural Language Processing *

Мы в SberDevices обучаем и оцениваем языковые модели для русского языка уже давно — так, например, за два года существования бенчмарка Russian SuperGLUE через его систему оценки прошли более 1500 сабмитов. Мы продолжаем разрабатывать инструменты для русского языка и в этой статье расскажем, как создали новый бенчмарк, который:

- опирается на оценку моделей в режимах zero-shot и few-shot; 

- использует новую библиотеку RuTransform для создания состязательных атак и трансформации данных с учётом особенностей русского языка на уровне слов и предложений — библиотека может быть использована как инструмент для аугментации данных;

- позволяет проводить детальный анализ качества модели на подмножествах тестовой выборки с учётом длин примеров, категории целевого класса, а также предметной области.

Читать далее
Всего голосов 27: ↑27 и ↓0 +27
Комментарии 1

Как и зачем тестировать голосовых и чат-ботов?

Время на прочтение 8 мин
Количество просмотров 2K
Блог компании Just AI Искусственный интеллект Natural Language Processing *Голосовые интерфейсы *
Туториал

Привет, Хабр! Меня зовут Оля, и я работаю QA-инженером в команде лингвистов Just AI. Для лингвистов-разработчиков каждый чат-бот — это отдельный проект со своими фичами, иногда с собственным характером и всегда — с особым подходом к тестированию. В тестировании ботов, помимо проектной специфики (a.k.a. конкретные требования и «хотелки» заказчика), которую обобщить едва ли возможно, есть еще и неочевидные вещи, связанные со спецификой самого типа бота. В этом материале я постаралась аккумулировать наш опыт запуска голосовых и текстовых ботов в продакшен (десятков ботов!) и собрать рекомендации о том, как их тестировать. 

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 2

Биграммы и триграммы. Кейс сбора и анализа информации из аудио с непонятными словами

Время на прочтение 4 мин
Количество просмотров 1.6K
Блог компании Инфосистемы Джет Семантика *Машинное обучение *Искусственный интеллект Natural Language Processing *

Привет. Меня зовут Александр Родченков, я занимаюсь речевой аналитикой в центре машинного обучения «Инфосистемы Джет». Тут я расскажу о биграммах и триграммах на примере реального, хоть и довольно скромного, кейса. Что же это за «граммы» такие, с чем их «едят» и зачем они нам? Кейс решал задачу сбора и обработки данных одной из продовольственных компаний. Сложность задачи заключалась в том, что в речи было очень много специфических терминов и аббревиатур. Как мы с этим справились, и с какими неожиданностями столкнулись после, читай под катом.

Жми, не пожалеешь!
Всего голосов 10: ↑10 и ↓0 +10
Комментарии 1