Pull to refresh
  • by relevance
  • by date
  • by rating

Ученые разработали прототип устройства, переводящего электрические сигналы мозга в речь

Medical gadgets Brain The future is here
image

Людей, которые по той либо иной причине потеряли способность говорить довольно много. Современные технологии позволяют частично решить эту проблему при помощи разных инструментов, от обычной клавиатуры до распознавания движения глазного яблока. К сожалению, чем сильнее степень обездвиженности человека, тем ниже его возможность общаться с окружающими.

Идеальным вариантом могло бы быть устройство, которое способно анализировать активность головного мозга и переводить электрические сигналы в речь. Ранний прототип такого устройства уже создан учеными из Калифорнийского университета в Сан-Франциско.
Total votes 14: ↑14 and ↓0 +14
Views 5.4K
Comments 17

Языковая модель SberDevices признана лучшей по пониманию текстов на русском языке

Сбер corporate blog SberDevices corporate blog Machine learning *Artificial Intelligence Natural Language Processing *

Энкодерная языковая модель ruRoberta-large (355 млн параметров, finetune), разработанная SberDevices, признана лучшей по оценке главного русскоязычного бенчмарка Russian SuperGLUE, уступив место только человеку. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными языковыми моделями. 

Также на сегодняшний день в топ-10 входят ещё 5 моделей SberDevices: ruT5-large-finetune, ruBert-large finetune, ruT5-base-finetune, ruBert-base finetune, RuGPT3XL few-shot.

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 1.6K
Comments 2

Google представила голосового помощника Relate для людей с нарушениями речи

Artificial Intelligence Natural Language Processing *Voice user interfaces

Google запустила бета-версию приложения, которое люди с нарушениями речи могут использовать в качестве голосового помощника. Цель тестирования состоит в том, чтобы сделать Google Assistant и другие голосовые функции более доступными для пользователей с неврологическими заболеваниями, влияющими на их речь.

Читать далее
Total votes 10: ↑10 and ↓0 +10
Views 357
Comments 0

One Day Offer для Data Scientists: приглашаем экспертов в команду SberDevices

SberDevices corporate blog Machine learning *IT career Artificial Intelligence Natural Language Processing *


Мы продолжаем встречи с соискателями в формате “One Day Offer”, в результате которых можно получить предложение работы за один день. В этот раз приглашаем датасайентистов уровня Middle+/Senior.

Всё будет происходить онлайн, 4 декабря (это выходной) с 11:00 до 20:00. Для участия нужно зарегистрироваться, отправив заявку по адресу: 1dayoffer@sberdevices.ru.

Несколько слов о SberDevices. Наша команда создаёт современные модели обработки естественного языка (Natural Language Processing), речевые технологии, алгоритмы компьютерного зрения, разрабатывает системы биометрии, модели для генерации медиаконтента и даже нейроинтерфейсы. Мы используем последние разработки в области искусственного интеллекта и машинного обучения и очень любим работать с большими генеративными моделями. Впереди у нас ещё много интересных задач!

Итак, какие же команды нанимают в этот раз:

SmartNLP Team— выстраивает core-систему обработки естественного языка. Все запросы к виртуальным ассистентам Салют проходят через неё. Наш сервис реализует весь стек технологий NLP: от предобработки текста и выделения сущностей до определения намерения пользователя и вызова соответствующего навыка. В этом нам помогают собственные разработки в области Representation Learning, Metric Learning и Natural Language Understanding. О некоторых наших подходах можно почитать здесь, здесь и здесь.
Читать дальше →
Total votes 4: ↑3 and ↓1 +2
Views 2.3K
Comments 2

Майкл Коэн «Дизайн голосового пользовательского интерфейса». 2004 [Перевод. Фрагмент]

Interfaces *
Бурный расцвет западной индустрии голосовых приложений повлек за собой многочисленные исследования в области usability голосовых интерфейсов.

Классическим исследованием в этой области считается книга Майка Коэна (Michael Cohen) «Voice User Interface Design» (2004).

Под habracut'ом перевод одной главы этой книги, посвященной необходимости учета определенных факторов при проектировании VUI. Представляет интерес для разработчиков мобильных приложений и структур голосовых меню, оптимизаторов интерфейсов, а также всех интересующихся голосовыми технологиями и usability.

Майк Коэн признанный авторитет в области речевых технологий, автор более 70 работ и многих патентов; профессор Стенфордского университета.
В 1994 году он стал одним из основателей компании Nuance, на сегодняшней день ведущей западной компании, предлагающей решения в области речи.
С 2004 года Коэн штатный научный сотрудник компании Google, в которой он возглавляет отдел Speech Technology Group.


Итак, — глава «Уменьшение мыслительных усилий»
*Осторожно: большой и серьезный текст

PS. Если у вас нет времени читать — можете скачать и прослушать этот текст в виде синтезированного подкаста.

Читать дальше →
Total votes 14: ↑13 and ↓1 +12
Views 3.2K
Comments 7

Семинар Natural Language Processing — открытие сезона 2010/11

Self Promo
image

В субботу 25-ого сентября 2010 в 17.00 мы открываем новый сезон семинара по автоматической обработке естественного языка. На первом заcедании этого учебного года выступит Эдуард Клышинский (Институт прикладной математики им. М.В. Келдыша РАН. Москва) с рассказом о принципах построения программного модуля морфологического анализа и синтеза для русского языка. Доклад называется «Давайте напишем морфологию».
Семинар будет транслироваться в он-лайне, позже мы выложим презентацию и видеозапись на сайт семинара.

Читать дальше →
Total votes 40: ↑38 and ↓2 +36
Views 669
Comments 13

10 лучших вузов в области речевых технологий и искусственного интеллекта

Artificial Intelligence


За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
Учимся говорить...
Total votes 39: ↑29 and ↓10 +19
Views 13K
Comments 21

Распознавание и синтез речи в любое приложение под iOS за час

Development for iOS *
Вводная часть:

Сам инструментарий называется NDEV. Чтоб получить необходимый код (его мало) и документацию (её много), надо зарегиться на сайте в «программе сотрудничества». Сайт:

dragonmobile.nuancemobiledeveloper.com/public/index.php

Это весь «геморрой», если клиентов вашего приложения менее полумиллиона и они пользуются сервисами менее 20 раз в день. Сразу после регистрации вы получите членство «Silver», которое позволит вам бесплатно пользоваться данными сервисами.
Разработчикам предлагается пошаговая инструкция по внедрению в свое приложение на iOS сервисов распознавания и синтеза речи:

Читать дальше →
Total votes 49: ↑43 and ↓6 +37
Views 11K
Comments 18

Способы оценки субъективного качества речи

Algorithms *Development of communication systems *
Sandbox
Так или иначе наиболее важным ресурсом в сетях передачи данных является пропускная способность каналов связи. Помимо увеличения максимальной пропускной способности каналов связи и их числа очевидно, что имеет смысл оптимизировать использование уже имеющихся. Например, применяя алгоритмы сжатия. Для каждого случая наиболее оптимальный алгоритм (с точки зрения вычислительной сложности, коэффициента сжатия и т.п.) может быть своим.
Особенностью сжатия звука является субъективность её восприятия человеком. Это одновременно даёт возможность исключать незначительную информацию из сигнала, но и усложняет алгоритм сжатия.
Для того, чтобы достичь наибольшего коэффициента сжатия при минимальных потерях субъективного качества необходимо знать законы его восприятия. Этим занимается Психоакустика.
При использовании психоакустических свойств для сжатия традиционные способы оценки качества уже не подходят. Так, например, соотношение сигнал/шум становится практически бесполезным, т.к. сжатие происходит без учёта тех частей, которые человек не воспринимает. Таким образом, оценка качества так же должна учитывать свойства слухового аппарата человека.

Под катом будут рассмотрены некоторые свойства речевых сигналов и особенностей их восприятия человеком, объективные и субъективные способы оценки качества этих сигналов.

P.S. В данной статье использована моя дипломная работа, защищённая в 2011 году в Московском Авиационном Институте на факультете Радиоэлектроники Летательных Аппаратов каф. 402. Ранее работа нигде не публиковалась.
Читать дальше →
Total votes 35: ↑32 and ↓3 +29
Views 35K
Comments 5

Речевые технологии. Распознавание слитной речи для чайников на примере IVR систем

Центр речевых технологий (ЦРТ) corporate blog Sound
Tutorial
Всем привет.
По роду своей профессиональной деятельности я занимаюсь внедрением проектов на основе речевых технологий. Это синтез и распознавание речи, голосовая биометрия и анализ речи.
Мало кто задумывается, насколько эти технологии уже присутствуют в нашей жизни, хоть и далеко не всегда – явно.
Постараюсь популярно объяснить вам, как это работает и зачем это вообще нужно.
Подробно начну с распознавания речи, т.к. это более близкая к повседневной жизни штука, с которой многие из нас встречались, а некоторые уже постоянно пользуются.
Читать дальше →
Total votes 18: ↑16 and ↓2 +14
Views 35K
Comments 15

Риски использования распознавания речи от Google в своих бизнес проектах

Центр речевых технологий (ЦРТ) corporate blog Asterisk *Development of communication systems *
Всем привет.

По мотивам статьи «Самообслуживание клиентов с помощью google ASR»
Хотел бы вам рассказать, какие есть риски для бизнеса при использовании распознавания речи от Google для своего call-центра.

Я представляю компанию «Центр речевых технологий» (ЦРТ) и мы занимаемся технологиями синтеза и распознавания русской речи и в первую очередь, как раз делаем решения по автоматизации call-центров.
Речевыми технологиями мы занимаемся уже на протяжении 20 лет. Сейчас над этим трудится порядка 70-80 ученых и программистов, плюс нам помогают речевые кафедры ведущих ВУЗов страны, плюс у нас есть собственная кафедра речевых технологий в ИТМО — растим своих молодых ученых.

И в этом посте я проведу параллели между распознаванием речи от ЦРТ и Google, относительно применения его в корпоративном секторе (call — центры).
Читать дальше →
Total votes 37: ↑18 and ↓19 -1
Views 21K
Comments 15

Речевые технологии. Голосовая биометрия для чайников на примере работы в контактном центре

Центр речевых технологий (ЦРТ) corporate blog Development of communication systems *
Tutorial
image

Всем привет.
Недавно я написал вот такую статью про распознавание слитной речи, а сейчас хотел бы написать про голосовую биометрию, т.е. подтверждение личности человека по голосу и узнавание человека по голосу.
Читать дальше →
Total votes 8: ↑6 and ↓2 +4
Views 23K
Comments 7

«Родная речь-2014» — шанс заявить о себе для молодых разработчиков

Центр речевых технологий (ЦРТ) corporate blog
Победители получат ценные призы и работу мечты!


image

Весной 2014 года пройдет второй открытый конкурс по разработке речевых систем для молодых ученых – «Родная речь». Победитель получит 120 000 рублей или участие в международной летней школе по речевым технологиям, серебряный призер – iPhone 5, а финалист, занявший третье место, – iPad 4.

График проведения конкурса:

15 января 2014 — начало регистрации участников
15 февраля 2014 —открытие доступа к конкурсной базе, начало работы
1-3 апреля 2014 — полуфинал
26-28 апреля — финал, который состоится в Санкт-Петербурге

Ознакомиться с условиями участия и получить всю необходимую информацию можно на странице конкурса на сайте ЦРТ spch.pro/x1fm2
Обязательным условием участия является вступление в группу ЦРТ ВКонтакте vk.com/speechpro

Для того чтобы принять участие, достаточно иметь навыки программирования, живое, творческое мышление и желание решать интересные, нестандартные задачи на стыке нескольких дисциплин, таких, как динамическое программирование, статистическое моделирование и др.

Организатор «Родной речи» – компания «Центр речевых технологий», абсолютный лидер российского и значимый игрок международного рынка речевых технологий и мультимодальной биометрии, ведущий разработчик речевых систем в России. Всем трем лауреатам конкурса будет предложено присоединиться к команде ЦРТ.

Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 2.4K
Comments 0

Станиславский для робота. Как использовать возможности эмоционального синтеза

Центр речевых технологий (ЦРТ) corporate blog Sound
Поздравляем всех с наступающими праздниками! Этот пост будет не столько технический, сколько сказочно-новогодний. По традиции, накануне Нового года мы придумываем подарки для наших партнеров и клиентов. Но также нам хочется сделать что-то приятное для более широкой аудитории. Самый лучший подарок – сделанный своими руками. А дарить подарки приятнее всего детям. Поэтому в этом году мы придумали проект «Робот читает сказки детям». Мы взяли 12 новогодних сказок, озвучили их с помощью синтеза речи и разместили на нашем портале Voice Fabric.

image

Как известно, Центр речевых технологий создал несколько голосов TTS (text-to-speech), которые используются в системах IVR контакт-центров, системах голосового оповещения, мобильных приложениях — «Radio RSS» и «Читатель».

Как подбирались голоса

Всего в команде «голосовых роботов» на данный момент 5 женских и 2 мужских голоса. У каждого голоса свое имя. Преобладание женских голосов объясняется тем, что в информационных системах именно женские голоса комфортнее для восприятия пользователями.
Индивидуальность каждого голоса обеспечивается несколькими факторами. Во-первых, тембр голоса сохраняется при студийной записи диктора, голос которого используется в качестве прототипа. Во-вторых, мы сохраняем интонационные особенности голоса диктора, применяя статистически рассчитанную модель голоса, которая создается именно по студийным фонограммам этого диктора.В итоге, для озвучивания сказок мы отобрали 6 голосов: Владимира, Анну, Юлию, Марию, Викторию и Александра.Выбирая сказки, мы руководствовались, конечно, новогодне-рождественской темой, отсутствием копирайтов, а также личными предпочтениями. Коллекция получилась пестрая: это и известные русские народные сказки («Два Мороза», «Лисичка-сестричка», «Снегурочка»), и европейская классика братьев Гримм и Г.Х. Андерсена. Также мы нашли менее известные у нас, но очаровательные рождественские сказки «Портной из Глостера» и «Мышонок Твикли». И, конечно, не могли обойти стороной замечательную притчу О. Генри «Дары волхвов», которая не совсем сказка, но очень трогательная история о настоящей любви.



Читать дальше →
Total votes 6: ↑4 and ↓2 +2
Views 5.6K
Comments 1

Конкурс «Родная речь-2014»: на старт, внимание, марш!

Центр речевых технологий (ЦРТ) corporate blog Algorithms *
Родная речь 2014
Всем привет!

15 января открылась регистрация участников ежегодного конкурса разработчиков – «Родная речь-2014». Победитель получит 120 000 рублей, серебряный призер – iPhone 5, а финалист, занявший третье место, – iPad 4.

Заполнить заявку самостоятельно или от имени команды можно на сайте деловой сети Marketing to Innovation, Education, Science, оказывающей конкурсу техническую поддержку.

Процедура регистрации подробно описана в инструкции.
Читать дальше →
Total votes 9: ↑4 and ↓5 -1
Views 3.2K
Comments 9

Распознай это! Конкурс «Родная речь» 2014

Центр речевых технологий (ЦРТ) corporate blog Algorithms *

Всем привет!

В прошлом посте мы анонсировали конкурс разработчиков «Родная речь-2014», участники которого должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка.
Регистрация уже началась, и чтобы помочь сомневающимся определиться с решением: принимать ли участие, я попробую объяснить, что же нужно сделать в рамках конкурса.
Читать дальше →
Total votes 12: ↑8 and ↓4 +4
Views 7.6K
Comments 1

Конкурс разработчиков «Родная речь» — начинаем обратный отсчет!

Центр речевых технологий (ЦРТ) corporate blog Algorithms *
Важная информация для всех участников.

15 февраля в общий доступ выложена конкурсная база, с которой вам предстоит работать. Пароль для скачивания: SKT38G9MC28

image

Задание нужно выполнить до конца марта. Дедлайн отправки готового задания организаторам – 2 апреля. 3 апреля состоится полуфинал.

Напоминаем, что участники должны будут создать работоспособный алгоритм преобразования распознанной последовательности фонем в текст, соответствующий нормам русского языка. Подробнее о задаче в одном из предыдущих постов.
Читать дальше →
Total votes 10: ↑4 and ↓6 -2
Views 2.1K
Comments 3

VoiceFabric: технология синтеза речи из облака

Центр речевых технологий (ЦРТ) corporate blog Interfaces *Sound


Сегодня поговорим про перспективы и возможности облачного сервиса VoiceFabric для разработчиков и пользователей. Сервис озвучивает любую текстовую информацию синтезированным голосом в режиме реального времени. Под катом мы подробно расскажем о нашем синтезе, сценариях его использования (стандартных и не очень) и как подключить его к своим проектам, а так же о том, чем он уникален.
Читать дальше →
Total votes 12: ↑12 and ↓0 +12
Views 19K
Comments 20

Работа людей с проблемами зрения на сенсорных устройствах — это уже не перспектива, а реальность

Адаптивные технологии ВОС corporate blog Website development *Programming *Development for Android *


Посмотревшие этот сюжет, скорее всего согласятся с тем утверждением, что сенсорные устройства, пожалуй, как никому другому, сегодня нужны именно людям с вышеизложенными проблемами, так как, действительно, сильно облегчают их повседневную жизнь.

Этот видеоролик сегодня делается без особых проблем, связанных с монтажем и бесчисленными дублями. Здесь всё снято именно так, как это происходит в обычной жизни человека, работающего на Android с помощью программы TalkBack, обеспечивающей речевой доступ на всех современных Android-устройствах, начиная с версии 4.1.

Читатели, интересующиеся вопросом истории невизуальной доступности Android могут посетить сайт Tiflocomp. Если же говорить о существующих проблемах, связанных с невизуальной доступностью Android-устройств и программных продуктов, то здесь скорее дело в низкой заинтересованности разработчиков, в то время, как арсенал средств доступности, заложенных в самой операционной системе Android весьма существенен.
О проблемах и конкретных решениях
Total votes 32: ↑30 and ↓2 +28
Views 14K
Comments 9

Речевая аналитика как инструмент управления KPI контакт-центра. Кейс «Ростелеком»

Центр речевых технологий (ЦРТ) corporate blog System Analysis and Design *Client optimization *Algorithms *Big Data *


Сегодня мы расскажем о том, как «Ростелеком Северо-Запад» повысил бизнес-показатели своего Единого Контакт-центра (ЕКЦ) с помощью инновационных технологий речевой аналитики. Подведены итоги консалтингового проекта, в рамках которого специалисты ЦРТ с помощью инструментов речевой аналитики Speech Analytics Lab проанализировали обращения клиентов в ЕКЦ «Ростелеком» и предложили методику улучшения качества обслуживания.

Зачем в КЦ нужна речевая аналитика?


ЕКЦ Северо-Западного филиала «Ростелеком» — огромная система, которая ежедневно обрабатывает тысячи обращений. При контроле качества супервизоры могут проанализировать только случайную выборку звонков, которая, как правило, составляет до 2% от общего числа обращений. А это не всегда даёт объективную картину.

С помощью инструментов речевой аналитики специалисты могут работать со 100% обращений. Для этого все диалоги ЕКЦ переводятся в текст и анализируются с помощью системы Speech Analytics Lab. Благодаря инструментам поиска в массивах неструктурированной речевой информации аналитик может отработать гипотезы (найти ключевые слова) на выборках в сотни тысяч фонограмм за несколько секунд.

На основе такого анализа можно разработать программу изменений для действующих в ЕКЦ процедур и процессов и оптимизировать системы самообслуживания (IVR, Личный кабинет, сайт).
Читать дальше →
Total votes 8: ↑8 and ↓0 +8
Views 14K
Comments 7
1