GeorgeR May 11 2011 at 11:03

10 лучших вузов в области речевых технологий и искусственного интеллекта

11 min

24K

За последние несколько лет в России вновь пробудился интерес к речевым интерфейсам. Западная научная традиция, в отличие от русской, в этом направлении имеет непрерывный более чем полувековой опыт.
Наш обзор посвящен ведущим вузам, дающим образование в области речевых технологий — автоматической обработки речи, голосовых интерфейсов, биофизики, искусственного интеллекта, нейронных сетей и т.д.

В конце списка в немногих словах описана ситуация с образовательным рынком России в области речевых технологий и две профильные кафедры в МФТИ и ИТМО.

Harvard University — Massachusetts Institute of Technology
Speech and Hearing Bioscience and Technology (SHBT)

«Странный, но общепризнанный факт — идея, эмоция, сигнал, песня может путешествовать из головы одного человека в голову другого, и это перемещение зависит от устрашающе сложной, необычайно захватывающей цепной реакции, известной как человеческое общение. В программе нашего университета мы изучаем каждую связь в этой цепи, на каждом уровне познания, от биохимии до понимания».

С 1992 года на SHBT ежегодно обучаются около 50 студентов с 60 различных факультетов Гарвардского университета, Массачусетского технологического института, Бостонского университета и учебных больниц Гарварда.

Основные научные интересы SHBT:

Фундаментальные исследования речевого аппарата и речевых функций.
Клинические исследования человеческого голоса и речевых отклонений.
Механика, биофизика, физиология и/или молекулярная биология среднего и внутреннего уха.
Приобретенные или врожденные отклонения механизмов слуха.
Нейрофизиологические или моделирующие подходы в изучении нервных клеток и схем, лежащих в основе слуховой обработки.
Нейровизуальные исследования механизмов тиннитуса.
Когнитивная нейробиология языковой обработки сигналов.
Проектирование, разработка и улучшение системы аппаратного и программного обеспечения слуховых аппаратов, ушных имплантов, вестибулярных протезов или алгоритмов автоматического распознавания речи.

Кандидаты на SHBT должны иметь степень бакалавра в области физики, биологии, психологии, лингвистики, коммуникативных наук, техники и информатики, и иметь обширные аналитические способности.

Справка

Учреждение: Harvard-MIT Division of Health Sciences and Technology
Направление: Program in Speech and Hearing Bioscience and Technology
Факультет: Speech and Hearing Bioscience and Technology
Сайт: web.mit.edu/shbt
Дисциплины: Acoustical Signal Processing, Engineering Acoustics, Medical/Bioacoustics, Musical Acoustics, Physical Acoustics, Psychological Acoustics, Speech, Animal Bioacoustics
Канал на YouTube: www.youtube.com/Harvard, www.youtube.com/MIT
Адрес: E25-518, 77 Massachusetts Avenue, Cambridge, MA 02139, USA [на карте]
Информация для поступающих: goo.gl/fOuAX
Контакты: 617-2537498 (fax), shbt-admissions@mit.edu

Stanford School of Engineering
Mechanical Engineering

«Будущее ограничивается только нашим воображением, а возможности безграничны».

Stanford School of Engineering, основанная в 1925 году и расположенная в самом сердце Силиконовой долины, ежегодно вмещает 9 различных департаментов, около 200 преподавателей и 4 тыс. студентов. 65 лабораторий, многие из которых междисциплинарные, работают в области медицины, бизнеса, лингвистики и физики.

Основные научные интересы и направления SOE:

Аэронавтика и астронавтика.
Биоинженерия.
Химические технологии.
Гражданская и экологическая инженерия.
Компьютерная наука.
Электротехника.
Управление в области науки и техники.
Материаловедение.
Проектирование машин.

Справка

Учреждение: Stanford School of Engineering
Направление: Mechanical Engineering; ME & Aero. & Astro.
Сайт: soe.stanford.edu
Дисциплины: Medical/Bioacoustics, Physiological Acoustics, Structural Acoustics and Vibration, Engineering Acoustics, Noise and Noise Control, Nonlinear/Aeroacoustics
Канал на YouTube: www.youtube.com/StanfordUniversity
Адрес: Stanford, CA 94305, USA [на карте]
Информация для поступающих: goo.gl/PuYOY
Контакты: chasst@stanford.edu (Charles R. Steele), lele@stanford.edu (Sanjiva K. Lele), pinsky@stanford.edu (Peter Pinsky)

Cambridge University Engineering Department
The Machine Intelligence Laboratory

«Speech Research Group — часть Machine Intelligence Laboratory. Миссия SRG — в продвижении знаний машинной обработки разговорного языка и развитии эффективных алгоритмов для реализации приложений. Основная спецификация SRG — работа с большими речевыми словарями и сопутствующими технологиями. Также исследовательские интересы распространяются на разговорные диалоговые системы, распознавание образов, синтез речи и машинное обучение».

Основные научные интересы и направления SRG:

Акустическое моделирование (статистические модели).
Фундаментальные исследования в машинного обучения.
Оптимизация диалога с использованием подкрепляющего обучения.
Распознавание на больших словарях.
Распознавание образов.
Распознавании речи на мобильных устройствах.
Дикторонезависимость и шумоподавление.
Диалоговые системы и VoiceXML.
Статистическое языковое моделирование.
Статистический машинный перевод.
Обработка и транскрибирование распознанной речи.

Speech Research Group принимает заявки от потенциальных аспирантов и соискателей докторской степени. Возможна также 1 или 2-х годичная магистратура.

Справка

Учреждение: Cambridge University, Speech Research Group
Направление: The Machine Intelligence Laboratory
Факультет: Cambridge University Engineering Department.
Сайт: mi.eng.cam.ac.uk/mi/Main/Speech
Дисциплины: large vocabulary speech transcription, spoken dialogue systems, multimedia document retrieval, speech synthesis, machine learning.
Канал на YouTube: www.youtube.com/CambridgeUniversity
Адрес: Trumpington Street, CB2 1PZ, UK [на карте]
Информация для поступающих: goo.gl/VbucH
Контакты: 01223 332752 (тел.), 01223 332662 (факс), jrm16@eng.cam.ac.uk (Janet Milne)

University of Oxford
Speech & Brain Research Group

«Нас интересует, как сенсорные и моторные области мозга взаимодействуют при речевой коммуникации. Мы используем различные методы отображения мозговой активности для изучения мозга во время актов произнесения и восприятия речи».

Speech & Brain Research Group набирает потенциальных магистров и докторов, которые могут выбрать любой из курсов Отделения экспериментальной психологии.

Основные научные интересы и направления FMRIB:

Анализ функциональных и структурных данных изображений мозга.
Физиологическая нейровизуализация.
Мозговые расстройства.
Диффузии изображения.
Речь и мозг.
Визуализация.
Нейродегенерация.
Познание.
Психиатрия.
Эпилепсия.

Справка

Учреждение: University of Oxford
Направление: Centre for Functional Magnetic Resonance Imaging of the Brain (FMRIB); Speech & Brain Research Group
Факультет: Department of Experimental Psychology, Oxford Centre for Developmental Science.
Сайт: www.fmrib.ox.ac.uk/speech-and-brain
Дисциплины: brain structure, neural activity, emotional processing, non-speech stimuli.
Канал на YouTube: www.youtube.com/Oxford
Адрес: Wellington Square, OX1 9FB Oxford, UK [на карте]
Информация для поступающих: goo.gl/HDMcO
Контакты: kate.watkins@psy.ox.ac.uk, +44 (0) 1865 280459 (тел.), +44 (0) 1865 280300 (факс)

University of California, Los Angeles (UCLA)
Department Of Linguistics

«UCLA Linguistics Department — один из ведущих мировых центров научного изучения языка».

Основные научные интересы и направления UCLA LD:

Фонетика.
Фонология.
Синтаксис.
Семантика.
Психолингвистика.
Матлингвистика.
Историческая лингвистика.
Африканские, индейские языки.

Имеются лаборатории фонетики, психолингвистики, обучения языку. Список лингвистических дисциплин.

Справка

Учреждение: University of California, Los Angeles
Направление: Department Of Linguistics
Сайт: www.linguistics.ucla.edu
Дисциплины: phonetics, phonology, syntax, semantics, psycholinguistics, language acquisition, historical linguistics, mathematical linguistics.
Канал на YouTube: www.youtube.com/UCLA
Адрес: 3125 Campbell Hall, UCLA, Los Angeles, USA [на карте]
Информация для поступающих: goo.gl/cdvYF
Контакты: (310) 825-0634 (тел.), +(310) 206-5743 (факс), linguist@humnet.ucla.edu

Johns Hopkins University
The Center for Language and Speech Processing

«Автоматизированные системы, взаимодействующие с людьми посредством разговора или письма, увеличат в скором времени свое удобство, простоту в использовании, а значит и нашу производительность. Эти системы будут сопровождать нас повсюду, где встречается информация, и все, включая людей с ограниченными возможностями, смогут получить доступ к большим и неструктурированным базам данным, таким, например, как интернет».

Center for Language and Speech Processing (CLSP) организован в 1992 году при поддержке американского правительства (NSF, DARPA, DoD). Исследования проводятся преподавателями, исследователями и аспирантами, аффилированными с шестью связанными факультетами: биоинженерия, когнитивистика, информатика, электротехника и вычислительная техника, математические науки и психология.

Основные научные интересы и направления CLSP:

Языковое моделирование.
Обработка естественного языка.
Нейронная обработка.
Акустическая обработка.
Теория оптимизации.
Языковое вхождение.

CLSP принимает на обучение студентов и аспирантов. Заявки должны быть поданы через любой из указанных факультетов: Biomedical Engineering, Cognitive Science, Computer Science, Electrical and Computer Engineering, Applied Mathematics & Statistics, Psychological and Brain Sciences.

Справка

Учреждение: Johns Hopkins University
Направление: The Center for Language and Speech Processing
Сайт: www.clsp.jhu.edu
Дисциплины: language modeling, natural language processing, neural auditory processing, acoustic processing, optimality theory, and language acquisition.
Канал на YouTube: www.youtube.com/JohnsHopkins
Адрес: 3400 North Charles Street, Baltimore, MD, USA [на карте]
Информация для поступающих: goo.gl/mQuyY
Контакты: clsp@clsp.jhu.edu, +1 443-997-6688 ‎(тел.)

Carnegie Mellon University
The Human-Computer Interaction Institute (HCII)

«Миссия HCII — понять и создать гармоничную технологию, которая усиливает возможности человека, его намерения и улучшить его социальное пространство с помощью междисциплинарных исследований и образования в области дизайна, компьютерных и социальных наук».

С 1985 года HCII предлагает исследовательские и образовательные программы, охватывающие полный цикл получения знаний. В него входят исследования социальной активности (работа, игра, общение) и социальных структур; дизайн, создание и оценка технологий и инструментов для поддержки социальной деятельности.

Основные научные интересы и направления HCII:

Пользовательский интерфейс программного обеспечения.
Когнитивные модели.
Распознавание речи.
Понимания естественного языка.
Компьютерная графика.
Распознавание жестов.
Визуализация данных, визуальный дизайн, мультимедиа.
Компьютерная поддержка совместной работы.
Компьютерная музыка и театральное мастерство.
Социальные технологии.

HCII набирает на обучение на степени бакалавров, аспирантов и кандидатов наук.

Справка

Учреждение: Carnegie Mellon University
Направление: The Human-Computer Interaction Institute (HCII)
Сайт: www.hcii.cmu.edu
Дисциплины: user-interface software tools, cognitive models, speech recognition, natural language understanding, computer graphics, gesture recognition, data visualization, intelligent agents, visual interface design, multimedia, computer-supported cooperative work, computer music and drama, intelligent tutors, technical writing, and the organizational and social impact of technology.
Канал на YouTube: www.youtube.com/CarnegieMellonU
Адрес: 5000 Forbes Avenue, Pittsburgh PA 15213-3891, USA [на карте]
Информация для поступающих: goo.gl/AqW92
Контакты: www.hcii.cmu.edu/contact-us, hcii@cs.cmu.edu

Образовательный рынок речевых технологий в России

История речевых технологий (именно технологий, а не просто научной лингвистики) ведет свое начало от перипетий связанных с организацией в СССР в 1959 году Института кибернетики, история успеха которого драматическим образом оказалась историей начала провала и потери мирового первенства в этом направлении. Создание Института кибернетики отчасти было вызвано западными успехами, в частности демонстрацией 7 января 1954 года в нью-йоркском офисе IBM системы машинного перевода (IBM-701).
Технологии машинного перевода, дешифровки текста, распознавания образов в 50-60-х гг. были выведены в СССР на уровень космической программы и оборонной промышленности и должны были доказывать лидирующие позиции Советского Союза в области моделирования искусственного интеллекта и компьютерного проектирования. Расцвет научной мысли в это время связан с такими фамилиями как Н.Д. Андреев, Ю.Д. Апресян, И.А. Мельчук, А.К. Жолковский, О.С. Кулагина, А.И. Берг, А.А. Ляпунов, М.Л. Цетлин, В. А. Успенский, С. К. Шаумян и др.
В 70-х годах, наметившийся выход к новым рубежам в области искусственного интеллекта, распознавания и синтеза речи, был по разным причинам окончательно децентрализован и, можно сказать, приостановлен в 80-е, когда ученые вынуждены были перейти с государственного финансирования на грантовую основу.
К концу 80-х началу 90-х гг. можно отнести первые попытки самостоятельного выживания отдельных лингвистических школ и традиций, впоследствии воплотивших свои знания в коммерчески успешные продукты и на новом витке развития речевых технологий реализующих свои образовательные амбиции. О двух из них — в нашем кратком обзоре.

Московский физико-технический институт, ABBYY
Распознавания изображений и обработки текста

«Наша цель – сделать на ФИВТе (Факультете инноваций и высоких технологий) самое лучшее преподавание Computer Science в России».

С 2006 года на кафедру поступило около пятидесяти человек. По окончании учёбы предоставляется работа в ABBYY, но выпускники не связаны никакими обязательствами по отношению к компании.

Основные научные интересы и направления РИОТ ABBYY:

Инженерия ПО.
Основы создания графических пользовательских интерфейсов.
Архитектура современных ЭВМ и операционные системы.
Разработка распределённых и клиент-серверных приложений.
Алгоритмы и структуры данных.
Интеллектуальные системы.
Искусственный интеллект.
Проектирование взаимодействия с пользователем.
Теория компиляции.
Логика и моделирование рассуждений.
Проектирование и анализ алгоритмов.
Лингвистические основы автоматической обработки текста.

На кафедру принимаются студенты, начиная с третьего года обучения (бакалавриат, магистратура).

Справка

Учреждение: Московский физико-технический институт, ABBYY
Факультет: Факультет инноваций и высоких технологий
Кафедра: Распознавания изображений и обработки текста
Сайт: www.abbyy.ru/kafedra
Дисциплины: проектирование и анализ алгоритмов, автоматическая обработка текста, прикладная теория решеток, разработка графического пользовательского интерфейса, интеллектуальные системы, распознавание и обработка изображений, моделирование поведения, восприятия и мышления, разработка архитектуры, клиент-серверные приложения.
Канал на YouTube: www.youtube.com/ABBYYVIDEOS
Адрес: Москва, Климентовский пер., 1, стр. 18 [на карте]
Информация для поступающих: goo.gl/pA7x9
Контакты: (495) 408-4318, (495) 408-4633; fivt.fizteh.ru; upr@mail.mipt.ru, krivtsov@mail.mipt.ru.

Санкт-Петербургский государственный университет информационных технологий, механики и оптики (ИТМО), Центр речевых технологий

Речевые информационные системы (РИС)

«Мы создаем продукты и технологии, которые помогают людям понимать других и быть понятыми, делая жизнь в глобальном информационном сообществе эффективнее и безопаснее».

Открытая в 2011 году кафедра «Речевые информационные системы» (РИС), вошла в состав факультета Информационных технологий и программирования ИТМО. Кафедра готовит специалистов, способных участвовать в исследовательской и проектной работе в области речевых информационных технологий со специализацией в направлениях распознавания и синтеза речи, распознавания личностей по голосу, мультимодальной биометрии, в области проектирования и разработки информационных систем и программного обеспечения.

Основные научные интересы и направления РИС:

Цифровая обработка речевых сигналов
Распознавание и синтез речи
Распознавание диктора
Искусственный интеллект
Мультимодальная биометрия
Организация проектирования и разработки программного обеспечения
Многопоточное программирование
Гибкие модели разработки программного обеспечения
Проектирование информационных систем
Системный анализ и моделирование информационных процессов и систем

На кафедру принимаются студенты с дипломом бакалавра или специалиста (желательно по направлениям информационных технологий и программирования) с общематематической подготовкой.

Справка

Учреждение: Санкт-Петербургский государственный университет информационных технологий, механики и оптики (ИТМО), Центр речевых технологий
Факультет: факультет Информационных технологий и программирования
Кафедра: Речевые информационные системы (РИС)
Сайт: www.speechpro.ru/career/learn-itmo
Дисциплины: распознавание и синтеза речи, распознавание личности по голосу, мультимодальная биометрия.
Адрес: Санкт-Петербург, ул. Красуцкого, 4 [на карте]
Информация для поступающих: 17 мая 2011 — день открытых дверей (регистрация ris@speechpro.com).
Контакты: +7 911 2643973; (812) 325-88-48; ris@speechpro.com

Hubs:

Artificial Intelligence

10 лучших вузов в области речевых технологий и искусственного интеллекта

В конце списка в немногих словах описана ситуация с образовательным рынком России в области речевых технологий и две профильные кафедры в МФТИ и ИТМО.

Harvard University — Massachusetts Institute of Technology Speech and Hearing Bioscience and Technology (SHBT)

Справка

Stanford School of Engineering Mechanical Engineering

Справка

Cambridge University Engineering Department The Machine Intelligence Laboratory

Справка

University of Oxford Speech & Brain Research Group

Справка

University of California, Los Angeles (UCLA) Department Of Linguistics

Справка

Johns Hopkins University The Center for Language and Speech Processing

Справка

Carnegie Mellon University The Human-Computer Interaction Institute (HCII)

Справка

Образовательный рынок речевых технологий в России

Московский физико-технический институт, ABBYY Распознавания изображений и обработки текста

Справка

Справка

Harvard University — Massachusetts Institute of Technology
Speech and Hearing Bioscience and Technology (SHBT)

Stanford School of Engineering
Mechanical Engineering

Cambridge University Engineering Department
The Machine Intelligence Laboratory

University of Oxford
Speech & Brain Research Group

University of California, Los Angeles (UCLA)
Department Of Linguistics

Johns Hopkins University
The Center for Language and Speech Processing

Carnegie Mellon University
The Human-Computer Interaction Institute (HCII)

Московский физико-технический институт, ABBYY
Распознавания изображений и обработки текста