
За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.
В конце списка в немногих словах описана ситуация с образовательным рынком России в области речевых технологий и две профильные кафедры в МФТИ и ИТМО.
Harvard University — Massachusetts Institute of Technology
Speech and Hearing Bioscience and Technology (SHBT)

«Странный, но общепризнанный факт — идея, эмоция, сигнал, песня может путешествовать из головы одного человека в голову другого, и это перемещение зависит от устрашающе сложной, необычайно захватывающей цепной реакции, известной как человеческое общение. В программе нашего университета мы изучаем каждую связь в этой цепи, на каждом уровне познания, от биохимии до понимания».
С 1992 года на SHBT ежегодно обучаются около 50 студентов с 60 различных факультетов Гарвардского университета, Массачусетского технологического института, Бостонского университета и учебных больниц Гарварда.
Основные научные интересы SHBT:
- Фундаментальные исследования речевого аппарата и речевых функций.
- Клинические исследования человеческого голоса и речевых отклонений.
- Механика, биофизика, физиология и/или молекулярная биология среднего и внутреннего уха.
- Приобретенные или врожденные отклонения механизмов слуха.
- Нейрофизиологические или моделирующие подходы в изучении нервных клеток и схем, лежащих в основе слуховой обработки.
- Нейровизуальные исследования механизмов тиннитуса.
- Когнитивная нейробиология языковой обработки сигналов.
- Проектирование, разработка и улучшение системы аппаратного и программного обеспечения слуховых аппаратов, ушных имплантов, вестибулярных протезов или алгоритмов автоматического распознавания речи.
Кандидаты на SHBT должны иметь степень бакалавра в области физики, биологии, психологии, лингвистики, коммуникативных наук, техники и информатики, и иметь обширные аналитические способности.
Справка
Учреждение: Harvard-MIT Division of Health Sciences and Technology
Направление: Program in Speech and Hearing Bioscience and Technology
Факультет: Speech and Hearing Bioscience and Technology
Сайт: web.mit.edu/shbt
Дисциплины: Acoustical Signal Processing, Engineering Acoustics, Medical/Bioacoustics, Musical Acoustics, Physical Acoustics, Psychological Acoustics, Speech, Animal Bioacoustics
Канал на YouTube: www.youtube.com/Harvard, www.youtube.com/MIT
Адрес: E25-518, 77 Massachusetts Avenue, Cambridge, MA 02139, USA [на карте]
Информация для поступающих: goo.gl/fOuAX
Контакты: 617-2537498 (fax), shbt-admissions@mit.edu
Stanford School of Engineering
Mechanical Engineering

«Будущее ограничивается только нашим воображением, а возможности безграничны».
Stanford School of Engineering, основанная в 1925 году и расположенная в самом сердце Силиконовой долины, ежегодно вмещает 9 различных департаментов, около 200 преподавателей и 4 тыс. студентов. 65 лабораторий, многие из которых междисциплинарные, работают в области медицины, бизнеса, лингвистики и физики.
Основные научные интересы и направления SOE:
- Аэронавтика и астронавтика.
- Биоинженерия.
- Химические технологии.
- Гражданская и экологическая инженерия.
- Компьютерная наука.
- Электротехника.
- Управление в области науки и техники.
- Материаловедение.
- Проектирование машин.
Справка
Учреждение: Stanford School of Engineering
Направление: Mechanical Engineering; ME & Aero. & Astro.
Сайт: soe.stanford.edu
Дисциплины: Medical/Bioacoustics, Physiological Acoustics, Structural Acoustics and Vibration, Engineering Acoustics, Noise and Noise Control, Nonlinear/Aeroacoustics
Канал на YouTube: www.youtube.com/StanfordUniversity
Адрес: Stanford, CA 94305, USA [на карте]
Информация для поступающих: goo.gl/PuYOY
Контакты: chasst@stanford.edu (Charles R. Steele), lele@stanford.edu (Sanjiva K. Lele), pinsky@stanford.edu (Peter Pinsky)
Cambridge University Engineering Department
The Machine Intelligence Laboratory

«Speech Research Group — часть Machine Intelligence Laboratory. Миссия SRG — в продвижении знаний машинной обработки разговорного языка и развитии эффективных алгоритмов для реализации приложений. Основная спецификация SRG — работа с большими речевыми словарями и сопутствующими технологиями. Также исследовательские интересы распространяются на разговорные диалоговые системы, распознавание образов, синтез речи и машинное обучение».
Основные научные интересы и направления SRG:
- Акустическое моделирование (статистические модели).
- Фундаментальные исследования в машинного обучения.
- Оптимизация диалога с использованием подкрепляющего обучения.
- Распознавание на больших словарях.
- Распознавание образов.
- Распознавании речи на мобильных устройствах.
- Дикторонезависимость и шумоподавление.
- Диалоговые системы и VoiceXML.
- Статистическое языковое моделирование.
- Статистический машинный перевод.
- Обработка и транскрибирование распознанной речи.
Speech Research Group принимает заявки от потенциальных аспирантов и соискателей докторской степени. Возможна также 1 или 2-х годичная магистратура.
Справка
Учреждение: Cambridge University, Speech Research Group
Направление: The Machine Intelligence Laboratory
Факультет: Cambridge University Engineering Department.
Сайт: mi.eng.cam.ac.uk/mi/Main/Speech
Дисциплины: large vocabulary speech transcription, spoken dialogue systems, multimedia document retrieval, speech synthesis, machine learning.
Канал на YouTube: www.youtube.com/CambridgeUniversity
Адрес: Trumpington Street, CB2 1PZ, UK [на карте]
Информация для поступающих: goo.gl/VbucH
Контакты: 01223 332752 (тел.), 01223 332662 (факс), jrm16@eng.cam.ac.uk (Janet Milne)
University of Oxford
Speech & Brain Research Group

«Нас интересует, как сенсорные и моторные области мозга взаимодействуют при речевой коммуникации. Мы используем различные методы отображения мозговой активности для изучения мозга во время актов произнесения и восприятия речи».
Speech & Brain Research Group набирает потенциальных магистров и докторов, которые могут выбрать любой из курсов Отделения экспериментальной психологии.
Основные научные интересы и направления FMRIB:
- Анализ функциональных и структурных данных изображений мозга.
- Физиологическая нейровизуализация.
- Мозговые расстройства.
- Диффузии изображения.
- Речь и мозг.
- Визуализация.
- Нейродегенерация.
- Познание.
- Психиатрия.
- Эпилепсия.
Справка
Учреждение: University of Oxford
Направление: Centre for Functional Magnetic Resonance Imaging of the Brain (FMRIB); Speech & Brain Research Group
Факультет: Department of Experimental Psychology, Oxford Centre for Developmental Science.
Сайт: www.fmrib.ox.ac.uk/speech-and-brain
Дисциплины: brain structure, neural activity, emotional processing, non-speech stimuli.
Канал на YouTube: www.youtube.com/Oxford
Адрес: Wellington Square, OX1 9FB Oxford, UK [на карте]
Информация для поступающих: goo.gl/HDMcO
Контакты: kate.watkins@psy.ox.ac.uk, +44 (0) 1865 280459 (тел.), +44 (0) 1865 280300 (факс)
University of California, Los Angeles (UCLA)
Department Of Linguistics

«UCLA Linguistics Department — один из ведущих мировых центров научного изучения языка».
Основные научные интересы и направления UCLA LD:
- Фонетика.
- Фонология.
- Синтаксис.
- Семантика.
- Психолингвистика.
- Матлингвистика.
- Историческая лингвистика.
- Африканские, индейские языки.
Имеются лаборатории фонетики, психолингвистики, обучения языку. Список лингвистических дисциплин.
Справка
Учреждение: University of California, Los Angeles
Направление: Department Of Linguistics
Сайт: www.linguistics.ucla.edu
Дисциплины: phonetics, phonology, syntax, semantics, psycholinguistics, language acquisition, historical linguistics, mathematical linguistics.
Канал на YouTube: www.youtube.com/UCLA
Адрес: 3125 Campbell Hall, UCLA, Los Angeles, USA [на карте]
Информация для поступающих: goo.gl/cdvYF
Контакты: (310) 825-0634 (тел.), +(310) 206-5743 (факс), linguist@humnet.ucla.edu
Johns Hopkins University
The Center for Language and Speech Processing

«Автоматизированные системы, взаимодействующие с людьми посредством разговора или письма, увеличат в скором времени свое удобство, простоту в использовании, а значит и нашу производительность. Эти системы будут сопровождать нас повсюду, где встречается информация, и все, включая людей с ограниченными возможностями, смогут получить доступ к большим и неструктурированным базам данным, таким, например, как интернет».
Center for Language and Speech Processing (CLSP) организован в 1992 году при поддержке американского правительства (NSF, DARPA, DoD). Исследования проводятся преподавателями, исследователями и аспирантами, аффилированными с шестью связанными факультетами: биоинженерия, когнитивистика, информатика, электротехника и вычислительная техника, математические науки и психология.
Основные научные интересы и направления CLSP:
- Языковое моделирование.
- Обработка естественного языка.
- Нейронная обработка.
- Акустическая обработка.
- Теория оптимизации.
- Языковое вхождение.
CLSP принимает на обучение студентов и аспирантов. Заявки должны быть поданы через любой из указанных факультетов: Biomedical Engineering, Cognitive Science, Computer Science, Electrical and Computer Engineering, Applied Mathematics & Statistics, Psychological and Brain Sciences.
Справка
Учреждение: Johns Hopkins University
Направление: The Center for Language and Speech Processing
Сайт: www.clsp.jhu.edu
Дисциплины: language modeling, natural language processing, neural auditory processing, acoustic processing, optimality theory, and language acquisition.
Канал на YouTube: www.youtube.com/JohnsHopkins
Адрес: 3400 North Charles Street, Baltimore, MD, USA [на карте]
Информация для поступающих: goo.gl/mQuyY
Контакты: clsp@clsp.jhu.edu, +1 443-997-6688 (тел.)
Carnegie Mellon University
The Human-Computer Interaction Institute (HCII)

«Миссия HCII — понять и создать гармоничную технологию, которая усиливает возможности человека, его намерения и улучшить его социальное пространство с помощью междисциплинарных исследований и образования в области дизайна, компьютерных и социальных наук».
С 1985 года HCII предлагает исследовательские и образовательные программы, охватывающие полный цикл получения знаний. В него входят исследования социальной активности (работа, игра, общение) и социальных структур; дизайн, создание и оценка технологий и инструментов для поддержки социальной деятельности.
Основные научные интересы и направления HCII:
- Пользовательский интерфейс программного обеспечения.
- Когнитивные модели.
- Распознавание речи.
- Понимания естественного языка.
- Компьютерная графика.
- Распознавание жестов.
- Визуализация данных, визуальный дизайн, мультимедиа.
- Компьютерная поддержка совместной работы.
- Компьютерная музыка и театральное мастерство.
- Социальные технологии.
HCII набирает на обучение на степени бакалавров, аспирантов и кандидатов наук.
Справка
Учреждение: Carnegie Mellon University
Направление: The Human-Computer Interaction Institute (HCII)
Сайт: www.hcii.cmu.edu
Дисциплины: user-interface software tools, cognitive models, speech recognition, natural language understanding, computer graphics, gesture recognition, data visualization, intelligent agents, visual interface design, multimedia, computer-supported cooperative work, computer music and drama, intelligent tutors, technical writing, and the organizational and social impact of technology.
Канал на YouTube: www.youtube.com/CarnegieMellonU
Адрес: 5000 Forbes Avenue, Pittsburgh PA 15213-3891, USA [на карте]
Информация для поступающих: goo.gl/AqW92
Контакты: www.hcii.cmu.edu/contact-us, hcii@cs.cmu.edu
Образовательный рынок речевых технологий в России
История речевых технологий (именно технологий, а не просто научной лингвистики) ведет свое начало от перипетий связанных с организацией в СССР в 1959 году Института кибернетики, история успеха которого драматическим образом оказалась историей начала провала и потери мирового первенства в этом направлении. Создание Института кибернетики отчасти было вызвано западными успехами, в частности демонстрацией 7 января 1954 года в нью-йоркском офисе IBM системы машинного перевода (IBM-701).
Технологии машинного перевода, дешифровки текста, распознавания образов в 50-60-х гг. были выведены в СССР на уровень космической программы и оборонной промышленности и должны были доказывать лидирующие позиции Советского Союза в области моделирования искусственного интеллекта и компьютерного проектирования. Расцвет научной мысли в это время связан с такими фамилиями как Н.Д. Андреев, Ю.Д. Апресян, И.А. Мельчук, А.К. Жолковский, О.С. Кулагина, А.И. Берг, А.А. Ляпунов, М.Л. Цетлин, В. А. Успенский, С. К. Шаумян и др.
В 70-х годах, наметившийся выход к новым рубежам в области искусственного интеллекта, распознавания и синтеза речи, был по разным причинам окончательно децентрализован и, можно сказать, приостановлен в 80-е, когда ученые вынуждены были перейти с государственного финансирования на грантовую основу.
К концу 80-х началу 90-х гг. можно отнести первые попытки самостоятельного выживания отдельных лингвистических школ и традиций, впоследствии воплотивших свои знания в коммерчески успешные продукты и на новом витке развития речевых технологий реализующих свои образовательные амбиции. О двух из них — в нашем кратком обзоре.
Московский физико-технический институт, ABBYY
Распознавания изображений и обработки текста

«Наша цель – сделать на ФИВТе (Факультете инноваций и высоких технологий) самое лучшее преподавание Computer Science в России».
С 2006 года на кафедру поступило около пятидесяти человек. По окончании учёбы предоставляется работа в ABBYY, но выпускники не связаны никакими обязательствами по отношению к компании.
Основные научные интересы и направления РИОТ ABBYY:
- Инженерия ПО.
- Основы создания графических пользовательских интерфейсов.
- Архитектура современных ЭВМ и операционные системы.
- Разработка распределённых и клиент-серверных приложений.
- Алгоритмы и структуры данных.
- Интеллектуальные системы.
- Искусственный интеллект.
- Проектирование взаимодействия с пользователем.
- Теория компиляции.
- Логика и моделирование рассуждений.
- Проектирование и анализ алгоритмов.
- Лингвистические основы автоматической обработки текста.
На кафедру принимаются студенты, начиная с третьего года обучения (бакалавриат, магистратура).
Справка
Учреждение: Московский физико-технический институт, ABBYY
Факультет: Факультет инноваций и высоких технологий
Кафедра: Распознавания изображений и обработки текста
Сайт: www.abbyy.ru/kafedra
Дисциплины: проектирование и анализ алгоритмов, автоматическая обработка текста, прикладная теория решеток, разработка графического пользовательского интерфейса, интеллектуальные системы, распознавание и обработка изображений, моделирование поведения, восприятия и мышления, разработка архитектуры, клиент-серверные приложения.
Канал на YouTube: www.youtube.com/ABBYYVIDEOS
Адрес: Москва, Климентовский пер., 1, стр. 18 [на карте]
Информация для поступающих: goo.gl/pA7x9
Контакты: (495) 408-4318, (495) 408-4633; fivt.fizteh.ru; upr@mail.mipt.ru, krivtsov@mail.mipt.ru.
Санкт-Петербургский государственный университет информационных технологий, механики и оптики (ИТМО), Центр речевых технологий
Речевые информационные системы (РИС)

«Мы создаем продукты и технологии, которые помогают людям понимать других и быть понятыми, делая жизнь в глобальном информационном сообществе эффективнее и безопаснее».
Открытая в 2011 году кафедра «Речевые информационные системы» (РИС), вошла в состав факультета Информационных технологий и программирования ИТМО. Кафедра готовит специалистов, способных участвовать в исследовательской и проектной работе в области речевых информационных технологий со специализацией в направлениях распознавания и синтеза речи, распознавания личностей по голосу, мультимодальной биометрии, в области проектирования и разработки информационных систем и программного обеспечения.
Основные научные интересы и направления РИС:
- Цифровая обработка речевых сигналов
- Распознавание и синтез речи
- Распознавание диктора
- Искусственный интеллект
- Мультимодальная биометрия
- Организация проектирования и разработки программного обеспечения
- Многопоточное программирование
- Гибкие модели разработки программного обеспечения
- Проектирование информационных систем
- Системный анализ и моделирование информационных процессов и систем
На кафедру принимаются студенты с дипломом бакалавра или специалиста (желательно по направлениям информационных технологий и программирования) с общематематической подготовкой.
Справка
Учреждение: Санкт-Петербургский государственный университет информационных технологий, механики и оптики (ИТМО), Центр речевых технологий
Факультет: факультет Информационных технологий и программирования
Кафедра: Речевые информационные системы (РИС)
Сайт: www.speechpro.ru/career/learn-itmo
Дисциплины: распознавание и синтеза речи, распознавание личности по голосу, мультимодальная биометрия.
Адрес: Санкт-Петербург, ул. Красуцкого, 4 [на карте]
Информация для поступающих: 17 мая 2011 — день открытых дверей (регистрация ris@speechpro.com).
Контакты: +7 911 2643973; (812) 325-88-48; ris@speechpro.com