Как стать автором
Обновить

Распознавание речи на Bash

Время прочтения 2 мин
Просмотры 36K
Google API *
Туториал
Из песочницы
Здравствуй, Уважаемый $USERNAME.

Небольшое введение


В данной статье я хотел бы рассказать вам о распознавании голоса, написанном на таком языке программирования как Bash. В качестве OC я выбрал Ubuntu 12.04

Ближе к теме


Распознавание голоса будет осуществляться сервисом Google, который используется в браузере Google Chrome для голосового поиска. Приступим?
Читать дальше →
Всего голосов 103: ↑74 и ↓29 +45
Комментарии 20

Eleven for Skype: теперь не надо ничего записывать

Время прочтения 2 мин
Просмотры 15K
Я пиарюсь
В погоне за новыми альтернативными способами управления техникой (сенсорные экраны, датчики движений, распознавание эмоций), мы почему-то забыли о таком естественном для человека инструменте как голос. И если мы ещё не дошли до того, чтобы привычно отдавать голосовые команды своим девайсам, сейчас мы легко можем надиктовывать списки задач для собственной работы.

Почему-то у нас нет сил сделать всё хорошо сразу, но мы их находим, чтобы потом всё переделать


Мы, фрилансеры, часто говорим по скайпу, но из-за большой загруженности мозга после разговора в памяти остаётся не более трёх вещей. А мы не хотим тратить время на пустые разговоры и тем более на выполнение ненужной работы. Очень обидно обнаружить, что силы и время потрачены на выполнение задач, результаты которых бесполезны. За это время можно было бы сделать действительно профитабельные вещи! Чтобы решить эту проблему, мы создали Eleven — сервис распознавания речи в реальном времени.
image
Читать дальше →
Всего голосов 51: ↑44 и ↓7 +37
Комментарии 67

Распознавание речи с помощью CMU Sphinx

Время прочтения 4 мин
Просмотры 78K
Звук
Из песочницы
CMU Sphinx сейчас является крупнейшим проектом по распознаванию человеческой речи. В инструментарий входят следующие программы и библиотеки:

  • Pocketsphinx — небольшая программа, которая принимает на вход произвольные акустические модели, грамматики и словари, а также звуковой поток(либо звуковой файл, либо сам берет поток с микрофона). На выходе получается распознанный текст. Написана на C, работает быстро.
  • Sphinxbase — библиотека необходимая для работы Pocketsphinx
  • Sphinx4 — гибкая библиотека для распознавания, написана на Java.
  • Sphinxtrain — программа для обучения акустических моделей.

Для работы со CMU Sphinx важно запомнить несколько определений и понять их отличия.

  • Акустическая модель — отвечает за сопоставление звуку произнесенной фонемы. Акустическую модель для русского языка можно скачать на сайте проекта. Русская акустическая и языковая модели. А также словарь.
  • Словарь — это файл, в котором написаны сопоставлены лексемы и фонемы (слово и его транскрипция). Например, калькулятор (k ay ll k u ll ja t ay r). Он необходим для преобразования фонем, распознанных акустической моделью в лексемы.
  • Грамматика — это формальные правила, которые описывают простые правила построения предложений. Лексемы, полученные на предыдущем шаге пытаются сопоставиться с грамматикой и если удачно, то выводится результат.
  • Языковая модель — это статистическая модель языка. Она описывает вероятности слов и их комбинаций. Таким образом распознавание лексем — это максимизация правдоподобности распознанной фразы.

Чем сложнее язык, чем обширней правила и размер словаря, тем хуже точность распознавания. Поэтому, для минимизации ошибки, имеет смысл создания упрощенных правил, которые будут описывать конкретную задачу.
Читать дальше →
Всего голосов 22: ↑20 и ↓2 +18
Комментарии 2

АТС и CRM за 5 минут

Время прочтения 4 мин
Просмотры 9.1K
Блог компании Zadarma SaaS / S+S *CRM-системы *Развитие стартапа Облачные сервисы *
Можно ли сэкономить на телефонии? Да, еще и не потеряв в функционале. Сейчас опишем, как за несколько минут настроить телефонию для бизнеса вместе с базой клиентов (облачную АТС в связке с CRM).


Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 6

Перевод аудио-сообщений в текст в telegram при помощи Wit

Время прочтения 4 мин
Просмотры 5.4K
PHP *
Туториал

Я абсолютно уверен что скоро в telegram - перевод аудио-сообщений в текст будет функцией по-умолчанию, ну а пока хотел бы показать простенький пример как реализовать такой функционал в telegram-боте (которых уже сотни, но почему бы не посмотреть как это работает на примере).

Читать далее
Всего голосов 9: ↑9 и ↓0 +9
Комментарии 5

Максимально просто о распознавании речи при помощи NeMo

Время прочтения 10 мин
Просмотры 6.7K
Python *Программирование *Машинное обучение *

На сегодня существует большое количество алгоритмов машинного обучения для обработки различного типа данных, таких как табличные данные, изображения, текст, аудио файлы. Как раз о последнем типе пойдёт речь в данной работе, потому как аудио файлы являются одной из распространенных форм хранения данных в организациях, тщательный анализ которых может являться ключевым фактором к развитию не только коммерческих продуктов, но и опенсорсных решений. В то же время именно методы работы со звуком менее всего популярны, особенно в русскоязычном сегменте, но об этом далее.

Читать далее
Всего голосов 1: ↑1 и ↓0 +1
Комментарии 5