Как стать автором
Обновить

Митап, полностью посвящённый распознаванию речи

Блог компании VK Машинное обучение *Социальные сети и сообщества Natural Language Processing *
24 сентября приглашаем разработчиков и исследователей на новый онлайн-митап от Команды ВКонтакте — VK Tech Talks | ASR! В этот раз мы целиком посвятили его распознаванию речи.


Читать дальше →
Всего голосов 8: ↑8 и ↓0 +8
Просмотры 1.1K
Комментарии 0

Приглашаем на VK Tech Talks · Sub — митап об автосубтитрах и расшифровке речи

Блог компании VK Работа с видео *Машинное обучение *Конференции Звук

20 января приглашаем на онлайн-митап VK Tech Talks · Sub. Разработчики ВКонтакте и VK Видео расскажут об автосубтитрах, распознавании и расшифровке речи в видео.

Это онлайн-встреча, трансляция пройдёт в сообществе VK Team ВКонтакте. Начинаем в 18:00 по московскому времени. Ждём как опытных специалистов, так и начинающих разработчиков. Регистрируйтесь, чтобы задать вопросы спикерам и поучаствовать в викторине.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Просмотры 459
Комментарии 0

Microsoft устранила ошибку Microsoft Defender, из-за которой удалялись ярлыки приложений с рабочего стола

Информационная безопасность *Системное администрирование *Антивирусная защита *Софт

Microsoft устранила ложное срабатывание Microsoft Defender, которое удаляло ярлыки приложений Windows с рабочего стола, из меню «Пуск» и панели задач, а в некоторых случаях делало их нерабочими.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Просмотры 1.8K
Комментарии 10

Автоматическое распознавание голоса

Облачные сервисы *
В конце этой недели Google представит ASR (automatic speech recognition — пер. 'автоматическое распознавание речи') технологию для YouTube. Она даст возможность создавать титры для видеороликов автоматически. В этой технологии используются алгоритмы из Google Voice, которые, к сожалению, на данном этапе не совершенны, но они будут улучшены со временем.

Кроме этого запускается автотайминг титров, который позволит значительно упростить ручное написание титров для роликов в YouTube. Все что будет необходимо, это создать текстовый файл со всеми словами из видео и ASR технология самостоятельно определит, когда сказаны слова и сгенерирует титры.



Стоит отметить, что эта функциональность будет поддерживать пока только английский язык.

Источник
Всего голосов 43: ↑39 и ↓4 +35
Просмотры 2.3K
Комментарии 21

Распознавание речи от Яндекса. Под капотом у Yandex.SpeechKit

Блог компании Яндекс Data Mining *Алгоритмы *
imageНа Yet another Conference 2013 мы представили разработчикам нашу новую библиотеку Yandex SpeechKit. Это публичный API для распознавания речи, который могут использовать разработчики под Android и iOS. Скачать SpeechKit, а также ознакомиться с документацией, можно здесь.

Yandex SpeechKit позволяет напрямую обращаться к тому бэкэнду, который успешно применяется в мобильных приложениях Яндекса. Мы достаточно долго развивали эту систему и сейчас правильно распознаем 94% слов в Навигаторе и Мобильных Картах, а также 84% слов в Мобильном Браузере. При этом на распознавание уходит чуть больше секунды. Это уже весьма достойное качество, и мы активно работаем над его улучшением.

image

Можно утверждать, что уже в скором времени голосовые интерфейсы практически не будут отличаться по надежности от классических способов ввода. Подробный рассказ о том, как нам удалось добиться таких результатов, и как устроена наша система, под катом.

Как устроено распознавание речи в Яндексе
Всего голосов 155: ↑149 и ↓6 +143
Просмотры 143K
Комментарии 60

Делаем Cloud IVR с интеллектуальной переадресацией и распознаванием за несколько минут

Блог компании Voximplant Разработка систем связи *
Туториал
Стандартный сценарий, который нужно реализовывать многим бизнесам — IVR-меню при входящем звонке, которое позволяет или получить какую-то информацию или связаться с конкретным сотрудником или оператором компании. Звонящий может управлять меню либо нажимая кнопки на телефоне (DTMF), или даже голосом (ASR). Так как платформа VoxImplant позволяет быстро писать и отлаживать сценарии обработки вызовов на Javascript, то мы решили рассказать как можно за несколько минут улучшить восприятие вашего бизнеса клиентами, сделав удобное и технологичное IVR-меню. К тому же, вы сможете грамотно распределять нагрузку на вашу телефонную систему и сотрудников. За деталями, как обычно, добро пожаловать под кат.
Читать дальше →
Всего голосов 14: ↑10 и ↓4 +6
Просмотры 8.3K
Комментарии 2

yandex-speech — wrapper к речевым технологиям Яндекса

JavaScript *Node.JS *
Ознакомившись с обзором движков для распознавания речи, заметил там API от Яндекса. И на выходных написал небольшую обертку для Node.js для распознавания речи с целью поиска мата в своих телефонных разговорах. По мотивам топика на Хабре.

Список нецензурных слов выкладывать не буду, а сам npm устанавливается командой.
npm install yandex-speech


Исходники и примеры использования:
github: www.github.com/antirek/yandex-speech

Немного деталей:
Читать дальше →
Всего голосов 23: ↑22 и ↓1 +21
Просмотры 14K
Комментарии 6

Быстрый голосовой набор на Asterisk

JavaScript *Node.JS *Asterisk *Разработка систем связи *
Статей по использованию сервисов распознавания речи в asterisk от Google и Яндекса на Хабре уже есть несколько. Но всегда хочется сделать что-нибудь свое и как-нибудь по-своему.

Так вот, хотелось сделать быстрый голосовой вызов абонентов из адресной книжки. Когда в организации работаешь с несколькими десятками человек, каждый день иногда забываешь и путаешь внутренние номера абонентов (а кнопок быстрого набора на всех не хватает). Поэтому просто надо, чтобы нажал кнопочку, сказал «Зина из третьего мобильный» и тебе отвечает Зина из третьего на своем мобильном.

Короткое видео с демонстрацией работы:


Читать дальше →
Всего голосов 25: ↑24 и ↓1 +23
Просмотры 24K
Комментарии 15

Технологии ASR и TTS для прикладного программиста: теоретический минимум

Программирование *C++ *API *
Туториал

Введение


В последние несколько лет голосовые интерфейсы окружают нас все плотнее. То, что когда-то демонстрировалось только в фильмах о далеком будущем, оказалось вполне реальным. Дело дошло уже до встраивания движков для синтеза (Text To Speech — TTS) и распознавания (Automatic Speech Recognition — ASR) речи в мобильные телефоны. Более того, появились вполне доступные API для встраивания ASR и TTS в приложения.

Ныне создавать программы с голосовым интерфейсом может любой желающий (не поскупившийся заплатить за движок). Наш обзор будет посвящен именно использованию имеющихся движков (на примере Nuance) а не созданию таковых. Также будут даны общие сведения необходимые каждому программисту впервые сталкивающемуся с речевыми интерфейсами. Статья также может быть полезна руководителям проектов, пытающимся оценить целесообразность интеграции голосовых технологий в их продукты.
Итак, начнем…

Но для затравки — анекдот:
Урок русского языка в грузинской школе.
Учитель говорит: «Дети, запомните: слова сол, фасол и вермишел пишутся с мягким знаком, а слова вилька, булька, тарелька – без мягкого знака. Дети, запомните, потому что понять это невозможно!»

Раньше этот анекдот казался мне смешным. Теперь — скорее жизненным. Почему так? Сейчас постараюсь объяснить…
Читать дальше →
Всего голосов 27: ↑25 и ↓2 +23
Просмотры 26K
Комментарии 8

Freeform распознавание речи в реальном времени и распознавание записей звонков

Блог компании Voximplant Разработка веб-сайтов *Программирование *Google API *Разработка систем связи *
Туториал

Мы уже писали про возможность создания сценариев с распознаванием речи, но тогда функционал данной системы был несколько ограничен. Не так давно компания Google открыла доступ к системе распознавания речи. И мы, конечно же, этим воспользовались. Многие компании реализуют разные сценарии взаимодействия со своими клиентами с помощью Voximplant. Автоматизация с помощью распознавания речи и поиск в уже распознанном позволяют бизнесу тратить меньше сил на ручную работу и больше — на то, что действительно важно. Далее мы подробно расскажем про несколько основных кейсов, ради которых делали интеграцию, и про проблемы, с которыми столкнулись в процессе, а также приведем несколько примеров использования нового функционала.
Попробовать демо и почитать, как оно сделано
Всего голосов 28: ↑27 и ↓1 +26
Просмотры 19K
Комментарии 17

Тренинг FastTrack. «Сетевые основы». «Строение роутеров, платформы маршрутизации от Cisco». Эдди Мартин. Декабрь, 2012

Блог компании ua-hosting.company Хостинг IT-инфраструктура *Cisco *Сетевые технологии *
Туториал
Около года назад я заприметил интереснейшую и увлекательную серию лекций Эдди Мартина, который потрясающе доходчиво, благодаря своей истории и примерам из реальной жизни, а также колоссальному опыту в обучении, позволяет приобрести понимание довольно сложных технологий.



Мы продолжаем цикл из 27 статей на основе его лекций:

01/02: «Понимание модели OSI» Часть 1 / Часть 2
03: «Понимание архитектуры Cisco»
04/05: «Основы коммутации или свитчей» Часть 1 / Часть 2
06: «Свитчи от Cisco»
07: «Область использования сетевых коммутаторов, ценность свитчей Cisco»
08/09: «Основы беспроводной локальной сети» Часть 1 / Часть 2
10: «Продукция в сфере беспроводных локальных сетей»
11: «Ценность беспроводных локальных сетей Cisco»
12: «Основы маршрутизации»
13: «Строение роутеров, платформы маршрутизации от Cisco»
14: «Ценность роутеров Cisco»
15/16: «Основы дата-центров» Часть 1 / Часть 2
17: «Оборудование для дата-центров»
18: «Ценность Cisco в дата-центрах»
19/20/21: «Основы телефонии» Часть 1 / Часть 2 / Часть 3
22: «Программные продукты для совместной работы от Cisco»
23: «Ценность продуктов для совместной работы от Cisco»
24: «Основы безопасности»
25: «Программные продукты Cisco для обеспечения безопасности»
26: «Ценность продуктов Cisco для обеспечения безопасности»
27: «Понимание архитектурных игр Cisco (обзор)»

И вот тринадцатая из них.
Всего голосов 14: ↑13 и ↓1 +12
Просмотры 6.4K
Комментарии 0

Тактичный робот: умеет слушать и не перебивает

Блог компании Voximplant Разработка веб-сайтов *JavaScript *Программирование *Разработка мобильных приложений *
Туториал
Распознавание речи (далее – ASR, Automatic Speech Recognition) используется при создании ботов и/или IVR, а также для автоматизированных опросов. Voximplant использует ASR, предоставляемый «корпорацией добра» – гугловское распознавание работает быстро и с высокой точностью, но… Как всегда, есть один нюанс. Человек может делать паузы даже в коротких предложениях, при этом нам нужна гарантия, что ASR не воспримет паузу как окончание ответа. Если ASR думает, что человек закончил говорить, то после «ответа» сценарий может включить синтез голоса со следующим вопросом – в это же самое время человек продолжит говорить и получит плохой пользовательский опыт: бот/IVR перебивает человека. Сегодня мы расскажем, как с этим бороться, чтобы ваши пользователи не огорчались от общения с железными помощниками.

Всего голосов 32: ↑31 и ↓1 +30
Просмотры 3.8K
Комментарии 0

Огромный открытый датасет русской речи

Open source *Открытые данные *Машинное обучение *Звук
image

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.
Читать дальше →
Всего голосов 101: ↑96 и ↓5 +91
Просмотры 32K
Комментарии 50

End2End-подход к пониманию разговорной речи

Блог компании МТС Алгоритмы *Машинное обучение *Искусственный интеллект IT-компании
Существует несколько подходов к понимаю машиной разговорной речи: классический трехкомпонентный подход (включает компонент распознавания речи, компонент понимания естественного языка и компонент, отвечающий за некую бизнес-логику) и End2End-подход, который предполагает четыре модели реализации: прямую, совместную, многоступенчатую и многозадачную. Рассмотрим все плюсы и минусы этих подходов, в том числе на основе экспериментов компании Google, и подробно разберем, почему End2End-подход решает проблемы классического подхода.

Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Просмотры 21K
Комментарии 1

End2End-подход в задачах Automatic Speech Recognition

Блог компании МТС Алгоритмы *Машинное обучение *Искусственный интеллект IT-компании
Что такое End2End-распознавание речи, и зачем же оно нужно? В чем его отличие от классического подхода? И почему для обучения хорошей модели на основе End2End нам потребуется огромное количество данных — в нашем сегодняшнем посте.

Классический подход к распознаванию речи


Прежде чем рассказать про End2End-подход, стоит сначала поговорить про классический подход к распознаванию речи. Что он из себя представляет?


Читать дальше →
Всего голосов 14: ↑14 и ↓0 +14
Просмотры 23K
Комментарии 3

Огромный открытый датасет русской речи версия 1.0

Open source *Открытые данные *Машинное обучение *Звук

image


В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать дальше →
Всего голосов 46: ↑41 и ↓5 +36
Просмотры 16K
Комментарии 18

Исследовательский практикум. Голосовые виртуальные ассистенты – что с ними не так?

Искусственный интеллект Голосовые интерфейсы *
Из песочницы

Введение


Аналитики, исследующие сервисы чат-ботов и виртуальных ассистентов, обещают рост рынка как минимум 30% в год. В абсолютных цифрах, по состоянию на 2019 год, рынок оценивался более чем в 2 миллиарда долларов в год. Виртуальных голосовых помощников выпустили практически все ведущие мировые IT-компании, а основную работу по их популяризации уже провели Apple, Google и Amazon.

image

На российском рынке тоже наметились свои лидеры в этой области. Первым крупным игроком, запустивших собственного голосового ассистента в России, стал «Яндекс». По данным компании, публикуемым официально, Алисой пользуется 45 миллионов пользователей в месяц, а число ежемесячных запросов к ассистенту – составляет более 1 млрд. По мнению специалистов, 2020 год может стать для рынка голосовых ассистентов переломным – конкуренция платформ и брендов приведет к росту узнаваемости ассистентов.

В общем, то, что рынок голосовых ассистентов – интересная ниша, сомневаться не приходится. И первая идея, которая приходит в голову – взять любой из доступных сервисов ASR (Automatic Speech Recognition) и TTS (Text To Speech), связать их с конструктором ботов, имеющим поддержку NLU (Natural Language Understanding), и все! Тем более что все это довольно легко и быстро можно реализовать в облачных платформах, таких как Twilio и VoxImplant.

Проблема только в том, что полученный результат будет весьма посредственным. В чем же причина этого? Прежде всего попробуем понять почему совокупность довольно-таки неплохих технологий, собранных вместе дают такой посредственный результат. Это важно, т.к. в реальной жизни клиент всегда будет отдавать предпочтение тому сервису, чей голосовой сервис удобнее, интереснее, умнее и быстрее прочих.
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 7.8K
Комментарии 7

Наш опыт работы с DeepPavlov: голосовой помощник за 20 дней и приём 5000 звонков на горячей линии

Блог компании Команда Цифровой Трансформации Татарстана Big Data *Машинное обучение *Искусственный интеллект Natural Language Processing *
Когда объявили режим самоизоляции, на горячую линию по коронавирусу в Татарстане поступало множество вопросов от жителей. Чтобы разгрузить операторов коллцентра, мы в Центре Цифровой Трансформации республики вместе с уполномоченным по ИИ в Татарстане разработали голосового помощника, который отвечал на несложные вопросы.



Для приема звонков мы использовали платформу Voximplant, а для распознавания вопросов и ответов — DeepPavlov. Голосового помощника получилось запустить за две с половиной недели, и он помог обработать 5000 звонков. У нас получилось выкатить продукт, который помогал жителям Татарстана получать достоверную информацию от властей, да и просто выходить на улицу. Ниже расскажем, как мы это делали.
Читать дальше →
Всего голосов 12: ↑9 и ↓3 +6
Просмотры 5.7K
Комментарии 9

Исследовательский практикум. Голосовой UX – как сделать голосового виртуального ассистента лучшей версией человека

Искусственный интеллект Голосовые интерфейсы *

Почему это важно?


Знаете, какой самый надежный способ сделать что-то идеально правильно? Надо просто подсмотреть это в живой природе, т.е. постараться увидеть – как данную проблему решила эволюция, ну или, если хотите, реализовал Бог, т.к. характер природы мироустройства каждый выбирает для себя сам. Если бы кнопки были самым оптимальным вариантом реализации интерфейса общения, то они, наверное, располагались бы у нас на лбу, ну или на каком-нибудь другом видном и легко доступном месте.

Любой UI, все эти бесконечные скроллы, кнопки, области и т.д. – не очевидны, и это почти всегда пользовательская боль. В отличие от них голос – это, наоборот, очень естественно. Проблема состоит в том, что при всей кажущейся простоте, разработать качественный голосовой интерфейс довольно сложно. Существует мнение, что голосовой интерфейс – это идеальная реализация интерфейса, который вроде бы являются частью системы, но, в то же самое время, не существует в ней в виде физического отображения.

image

Проектирование голосового интерфейса по сути своей является проектированием пользовательских диалогов. И критериев эффективности здесь довольно много – степень удовлетворенности клиента, глубина разговора и т.д. Сложность разработки диалогов, кроме всего прочего состоит в том, что необходимо сделать их похожими на общение людей друг с другом, а не на комиксовые варианты общения человека с роботом.
Читать дальше →
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 1.4K
Комментарии 5

Насколько Быстрой Можно Сделать Систему STT?

Анализ и проектирование систем *Big Data *Машинное обучение *Natural Language Processing *


Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот — оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state-of-the-art системы из bleeding edge статей, а на практике иногда оказывается, что метрики рассчитаны в надежде, что "покупают для галочки и никто пользоваться не будет и так сойдет". Также не помогает то, что некоторые системы работают на GPU, а некоторые нет, равно как и то, что ядра процессоров могут отличаться в разы по производительности (например старые серверные процессора с тактовой частотой 2 — 2.5 GHz против современных решений от AMD с 4+ GHz на ядро имеющие до 64 ядер). Давайте в этом вместе разберемся, на самом деле, все не так уж и сложно!


Как правило люди начинают задумываться о скорости в 3 случаях:


  • Когда ее не хватает или когда она является узким горлышком;
  • Когда со скоростью нет проблем, но есть проблемы с ценой железа;
  • Когда есть жесткое SLA по качеству сервиса от конечного заказчика;
  • Когда есть жесткие требования по скорости "первого ответа" от конечного заказчика;

В этой статье мы постараемся ответить на несколько вопросов:


  • Что вообще значит скорость?
  • Какой скорости можно добиться в теории?
  • Какой скорости можно добиться на практике и желательно без потери качества?
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.1K
Комментарии 1