
Думаю, одним из самых ярких впечатлений у тех, кто застал действительно старые компьютеры и игровые приставки, стала впервые услышанная реалистичная речь в компьютерной игре. На фоне весьма условных звуковых эффектов и довольно примитивно звучащей синтетической музыки это казалось невероятным чудом: компьютер разговаривает человеческим голосом.
Похожие впечатления в те времена вызывали и говорящие электронные игрушки, телефоны, часы, и прочая подобная техника — несмотря на столетие существования звукозаписи, речь, доносящаяся из электронного устройства, была способна удивить.
Сегодня покопаемся в истории появления голоса в электронных игрушках и компьютерных играх: когда он впервые появился, какие исторические примеры отразились в поп-культуре, и какие технологии для этого использовались.
Древнейшая история
Для начала пройдёмся по краткой истории имитации человеческой речи в целом, а также компьютерного синтеза речи в частности, и технологий, которые применялись для решения этой сложной технической задачи в разные исторические периоды.
Искусственным воссозданием человеческой речи человечество заинтересовалось очень давно. Практически сразу обозначилось два концептуально разных подхода, и это разделение сохраняется по сей день: синтез речи «из ничего», через имитацию особенностей человеческого организма, и просто запись и последующее воспроизведение любых звуков, в том числе и голоса.
Имитация, или «синтез» речи является технически более сложной задачей, с которой даже самая современная техника начала действительно убедительно справляться всего лишь несколько лет назад, с началом бурного развития нейросетей. Однако, самые первые попытки были предприняты аж два века назад, задолго до появления любых компьютеров.

В 1769-1778 годах (точная дата неизвестна) Вольфган фон Кемпелен изобрёл механический синтезатор звуков человеческой речи, воспроизводящий некоторые гласные и согласные звуки. В 1830-х эту конструкцию усовершенствовал Йозеф Фабер, и получившийся в итоге аппарат стал известен как «говорящая машина Фабера». Это, конечно, не синтезатор речи как таковой, а лишь имитатор речевого тракта человека, с разной степенью достоверности воспроизводящий некоторые характерные пыхтения и сопения.

Значительно синтез речи был усовершенствован с появлением электроники. Электронный «водер» (нет, ещё не «вокодер»), то есть Voice Operating Demonstrator, изобретённый в 1937-38 годах и построенный на самых современных электронных лампах, смог звучать куда более убедительно. Но это опять же были только отдельные звуки. Для синтеза речи требовалось очень ловкое и сложное управление оператором, манипулирующим кнопками и педалями. Двенадцать специально обученных человек смогли развить в себе таланты, достаточные для синтеза более-менее разборчивых фраз.
Наконец, с приходом компьютеров речевой синтез начал действительно активное развитие, производя всё более разборчивую и убедительную речь. Первые коммерческие продукты появились в конце 1970-х. Поначалу их голос звучал очень искусственно, но новейшие разработки в этой области стали настолько хороши, что далеко не сразу можно понять, что говорит синтезатор, а не реальный человек — думаю, сегодня уже каждый попадался на эту удочку, смотря видео, озвученное с помощью И��.
Впрочем, Стивен Хокинг настолько привык к несовершенному звучанию своего речевого синтезатора на основе технологии DECtalk 1983 года, позволившего ему продолжать говорить после утраты возможности делать это естественным образом, что навсегда оставил его неизменным, несмотря на постоянно появлявшиеся достижения в этой области, и этим навсегда вписал ранний этап развития технологии синтеза речи в массовую мировую культуру.
Компьютерный синтез речи «с нуля» лучше всего подходит в ситуациях, когда набор озвучиваемых фраз заранее неизвестен. Он также хорош тем, что не требует большого объёма памяти. Однако, ранние решения были очень компромиссными, а качество их звучания было значительно хуже цифровой звукозаписи.
Цифровая звукозапись
Другое направление, звукозапись, первоначально также ориентировалось больше на человеческую речь, чем на музыку и иное произвольное звуковое содержание. Хотя эта задача в целом проще — нужно лишь запечатлеть и потом восстановить запись уже существующего источника звука, а не разбираться в том, как синтезировать нужные звуки из ничего, её решение потребовало определённого уровня развития техники.

Первый звукозаписывающий аппарат, фоноавтограф, был изобретён в 1857 году Эдуаром Леоном Скоттом де Мартенвилем. Однако, был подвох: этот аппарат только записывал звук, но не воспроизводил его — он просто зарисовывал звуковые колебания на поверхности стекла, покрытого сажей. Самые ранние записи удалось воспроизвести с помощью оптического сканирования только в 2008 году. Исторически же задачу полного цикла записи и воспроизведения звука решил в 1877 году всем известный фонограф Томаса Эдисона, записывающий звуки на цилиндр из фольги (позже из воска). Дальше вы знаете: граммофон, патефон, магнитофон, и так далее.
Научить записывать звуки ЭВМ технически было совсем несложно. На это способен практически любой компьютер, обладающий достаточным быстродействием, стабильной скоростью работы, достаточным количеством памяти и каким-никаким преобразователем аналогового сигнала в цифровую форму и наоборот.

Принцип прост: несколько тысяч раз в секунду измеряем уровень входного сигнала, запоминаем последовательность измерений в памяти. Потом по этой записи с той же частотой выставляем на выходе нужный уровень. Этот процесс называется «оцифровкой». Кодировка звука в такой форме называется PCM (Pulse Code Modulation), она была изобретена Алеком Ривзом в 1938 году и изначально предназначалась для нужд телефонии.

Проследить дальнейшее развитие идеи цифровой звукозаписи очень непросто. Разработка шла одновременно по нескольким фронтам, в основном касаясь передачи голоса в реальном времени, в том числе с шифрованием (проект SIGSALY 1943 года), но также и звукозаписи. Однако, далеко не обязательно с использованием компьютера: ранние системы, появившиеся в конце 1960-х, записывали цифровые данные сразу же на магнитную ленту.
Мне не удалось найти точный ответ, кто и когда применил компьютер именно для записи звука в цифровой форме. Но похоже, что самые первые эксперименты в этой области проводились примерно в начале 1960-х годов. Например, существуют упоминания экспериментов, независимо проводившихся разными людьми в MIT (Дэвид Гросс, Алан Коток, Том Стокман) на полностью транзисторном компьютере TX-0, предке PDP-1, оснащённом блоками ЦАП и АЦП. С помощью этого оборудования выполнялись записи звуков на магнитную ленту, а проект неофициально именовался «дорогим ленточным магнитофоном».

Запись реального человеческого голоса в цифровом формате даёт гораздо более высокое качество речи, чем синтез «с нуля». Но платой за это является большой расход памяти — совершенно незначительный по современным меркам, но едва ли подъёмный по меркам микрокомпьютеров конца 1970-х годов.
Линейное предсказание
Для хранения записанных методом оцифровки звуков нужен большой объём памяти. Для голоса даже самого завалящего качества требуется поток данных хотя бы порядка 4000 значений в секунду.
Для микрокомпьютеров 1970-х годов, предназначенных для зарождающегося массового рынка, это было непозволительной роскошью. Так, Altair 8800 в базовой конфигурации имел 256 байт ОЗУ, и оно расширялось модулями по 1 и 4 килобайта. Четырёхкилобайтный модуль памяти в 1975 году стоил около 260 долларов.
В тот период было найдено компромиссное решение: объединить реальный синтез речи с предзаписью набора данных. Но теперь вместо моментальных значений уровней сигнала в память записывался набор параметров, с помощью которого синтезатор мог воссоздать короткий фрагмент звучания человеческой речи.
Популярная реализация этой технологии называется LPC, Linear Predictive Coding, или «кодирование линейного предсказания» (но это не точно) — специализированный метод кодирования звуков человеческой речи.

Идея возникла в 1930-х годах, когда был изобретён «вокодер» — синтезатор элементов звучания человеческой речи на основе произвольного входного сигнала. Изначально он не был музыкальным инструментом группы Daft Punk, а предназначался для экспериментов по экономии полосы пропускания в телефонии. Технология довольно долго развивалась, и только в начале 1970-х появились первые практические устройства, а в конце десятилетия — специализированные микросхемы.
Если говорить простыми словами, идея LPC заключается в следующем. Входной сигнал разбивается на короткие фрагменты, «кадры», длительностью порядка 1/30..1/50 секунды. Для каждого фрагмента определяется составляющие, характерные именно для человеческой речи: частотный состав, определяющий форманту, и наличие консонантных звуков (щелчки и шипение). В пределах длительности кадра изменение сигнала носит линейно предсказуемый характер, то есть не меняется сложным образом. Поэтому параметров кадра, сохранённых в небольшом пакете данных, достаточно для последующей приблизительной реконструкции сигнала.

Для воссоздания звука применяется два генератора: обычный генератор тонального сигнала заданной высоты и генератор белого шума, а также система формантных фильтров, вырезающих из исходного сигнала определённые узкие полосы частот. Этот небольшой набор технических средств позволяет создавать все звуки, характерные для человеческой речи, а сохранённый ранее набор параметров кадра позволяет генерировать условно-похожий на исходный фрагмент звука. В практических реализациях, конечно, всё устроено несколько сложнее, с достаточно суровой математикой, для объяснения которой у меня не хватит квалификации.
При высокой частоте следования пакетов LPC даёт хорошее качество для речи одиночного диктора, сохраняя исходный тембр голоса и его нюансы, и работает даже для пачки голосов, типа хора. Разумеется, он не подходит для звуков произвольной природы, например, музыки.
В практических реализациях из конца 1970-х годов память всё же являлась ценным ресурсом, поэтому частота следования пакетов выбиралась низкой, а типичный порядок цифрового фильтра 10 или 12, что даёт 5 или 6 формант — минимально достаточное количество. В результате записанный голос звучал искусственно, но достаточно разборчиво, особенно если кодировались фразы целиком. Также эти реализации позволяли конструировать слова из отдельных звуков и фонем, создавая характерное «роботизированное» звучание.

Быстродействия микрокомпьютеров конца 1970-х для программного синтеза необходимых звуков методом LPC было маловато, особенно для встраиваемых применений, типа часов и калькуляторов. Поэтому были созданы специализированные микросхемы. Так, в 1978 году Texas Instruments разработала чип TMC0280 (он же TMC5100), использовавшийся в её собственной знаменитой игрушке Speak & Spell 1979 года. А конкурирующая организация General Instruments в 1981 году выкатила на свободный рынок свою альтернативу, чип SP0256, которая впоследствии широко применялась в самых разных устройствах.

Быстрое снижение стоимости компьютерной памяти и соответствующий рост её объёма в домашних устройствах от единиц до десятков и даже сотен килобайт уже к середине 1980-х позволил уйти от применения специализированных чипов для синтеза на основе LPC, и постепенно в игры пришло более реалистичное звучание человеческой речи.
Самые первые
Самые первые голоса в компьютерных играх зазвучали на аркадных автоматах. Эти технически сложные машины, в силу своей ориентированности на сравнительно честный отъём (увод) денег у населения, стоили очень дорого, и поэтому могли позволить себе применение самых последних достижений науки и техники.
До видеоигр самой первой игрой с компьютерным голосом успел стать пинбол Gorgar компании Williams Electronics, созданный в 1979 году. Он воспроизводит семь слов в хорошем качестве и с выражением — это сэмплы, причём хорошего качества. Записаны они популярным в своё время радиоведущим Джоном Доремусом, но в игре воспроизводятся на 30% медленнее, чтобы создать более угрожающий тембр.
Голос декодируется с помощью чипа Harris HC55516, а метод кодирования называется CVSD. Он похож на ADPCM, но с однобитным потоком. К сожалению, мне неизвестен объём ПЗУ, в котором смогли уместиться этим сэмплы. Такое же техническое решение применено и в аркаде Sinistar 1982 года, запомнившейся игрокам своими жуткими голосовыми фрагментами, которых, что интересно, тоже было семь.
Самой первой видеоигрой в истории, где использовался синтез речи, считается аркада Speak & Rescue, разработанная Sun Electronics (будущей Sunsoft) и выпущенная ей на японском рынке в мае 1980 года. В названии оригинальной японской версии был даже сделан акцент на наличие речи — разработчики сами считали эту особенность «киллер-фичей». На рынке США игра издавалась компанией Taito под названием Stratovox, тоже с намёком на голос («vox»), но уже не таким явным.
Сама игра представляет собой что-то среднее между Space Invaders, Galaxian или Galaga — простенький космический шутер. Периодически в игре звучат короткие фразочки типа «help me» или «very good». Голос в этой игре, честно говоря, ни к селу, ни к городу, и видимо, был сделан просто потому что могли.

Технически голос реализован через сэмплы. Автомат содержит две большие печатные платы. Одна обеспечивает работу самой игры и генерирует графику, другая воспроизводит все звуки, включая голос. На каждой плате присутствует собственный микропроцессор Z80. Звуковая программа и сэмплы хранятся в ПЗУ объёмом 4 килобайта и выводятся в 8-битный ЦАП. Данные сэмплов, по всей видимости, сжаты, вероятно они хранятся в однобитном формате. Конечно, такой простой подход и очень ограниченный объём памяти повлияли на качество звучания голоса: оно просто ужасное, так как частота дискретизации составляет около 3 кГц.
В том же 1980 году, но в ноябре, вышла другая аркада, которая действительно запомнилась игрокам именно своей голосовой озвучкой. Это Berzerk от Stern Electronics, поэкранный лабиринт-стрелялка, где герой уничтожает нападающих на него роботов. Игра была портирована на множество домашних платформ и осталась в памяти поколений.
На этот раз разработчики применили для воспроизведения речи чип для LPC-кодирования. Речь таких чипов при необходимости сильной экономии памяти звучала очень «роботически», но создатели обратили эту особенность на пользу игре: в ней роботы дразнят игрока различными фразочками типа «Chicken, fight like a robot!». Всего в игре около десятка фраз, поместившихся благодаря кодированию в 4 килобайта ПЗУ.

Синтезатор голоса в Berzerk реализован в виде целой отдельной платы, называемой VSU-1000 (Voice Synthesizer Unit), и построен на весьма интересном чипе TSI S14001A. Судя по всему, это самый первый чип синтезатора голоса, разработанный аж в 1975 году, и до этого применявшийся в говорящем калькуляторе TSI Speech+. Про устройство чипа известно, что он использует LPC-кодирование, фильтр 10-го порядка и 4-битный ЦАП.
Другая ставшая классикой аркада, Q*Bert от Gottlieb, вышедшая в 1982 году, также имела памятную голосовую озвучку. Помимо внятных фраз, таких как «Hello, I’m turned on» при включении автомата, здесь звучит синтезированная обсценная лексика. Ну, почти: на экране герой выражается облачком с набором символов, каким обычно «запикивают» текстовый мат, а озвучивается это случайным набором фонем. Игроки воспринимали это именно как брань, ставшую своего рода доисторическим мемом эпохи.
Техническое решение в этой аркаде снова довольно уникальное: это чип SC-01 компании Votrax. В 1971-1987 годах она разработала свой собственный LPC-подобный алгоритм кодирования речи, а также производила специализированные чипы и устройства для синтеза речи. SC-01 содержит 64 аллофона, которые под управлением внешнего микропроцессора можно объединять в слова. Именно сложность этого процесса и привела к появлению синтезированной матершины — Дэвид Тил, ответственный за программирование чипа, просто не смог добиться от него внятного звучания желаемых фраз. Вероятно, именно так была заложена основа традиции «псевдоречи» в играх, как, например, в серии Sims.
К слову, в Q*Bert есть забавный момент, связанный со звуком, но не связанный с синтезом речи. При падении героя с пирамиды раздаётся натуральный удар по корпусу автомата, реализованный специальным соленоидом. Таким образом браниться от неожиданности мог начать и сам игрок.
Наконец, хочется упомянуть игру Star Wars 1983 года, разумеется, сделанную по мотивам нашумевшего фильма. Впервые в истории озвучки игр в ней в соответствующие моменты можно слышать фрагменты звука, взятые непосредственно из фильма, и произнесённые оригинальными актёрами.
Для хранения голосовых фрагментов используется классическое LPC-кодирование. Речь записана целиковыми отрывками, которых тут аж два десятка штук, а не собирается из отдельных аллофонов. Синтезируется она упомянутым ранее чипом TMS5220. Объём ПЗУ со звуковыми данными составляет 16 килобайт. Качество звука довольно хорошее и узнаваемое, учитывая используемую технологию. Помогает лучшему восприятию стилизация под радиопереговоры.
Я воздержусь от дальнейшего утомительного перечисления ранних аркадных игр, использовавших синтез речи или записанные сэмплы — хотя в истории было ещё немало занимательных примеров. Теперь давайте лучше посмотрим, как решалась задача голосовой озвучки игр на домашних игровых машинах.
Голос дома
Технический прогресс стремительно шагал вперёд, индустрия электронных развлечений развивалась, и уже в начале 1980-х годов компьютерные голоса стало возможным услышать не только в аркадных залах, но и дома: они всё чаще стали звучать на бытовых компьютерах и игровых консолях.
Как и аркады, поначалу домашние платформы нередко рассчитывали на применение аппаратных синтезаторов речи на основе LPC-кодирования. Ведь память этих платформ составляла единицы килобайт, что не позволяло хранить в ней PCM-сэмплы даже самого низкого качества.
Одним из самых ранних голосовых синтезаторов стал Speech Module для домашнего компьютера Texas Instruments TI-99/4, представленный на рынке одновременно с самим компьютером в 1979 году. Так как компания Texas Instruments была одним из пионеров в области создания микросхем голосового синтеза, она применила в этом модуле собственное решение на базе микросхемы TMS5220, реализующей вариант LPC и обладающее на удивление убедительным звучанием голосовых сообщений. Аналогичный голосовой синтезатор Echo II существовал и для компьютеров Apple II и Apple IIe.

Для большинства других компьютеров и некоторых игровых консолей были созданы дополнения, построенные на микросхеме General Instruments SP0256. Эта БИС представляет собой типичное решение для воспроизведения LPC-сэмплов, может работать под управлением внешнего микропроцессора, воспроизводит отдельные аллофоны, а также имеет несколько версий, отличающихся заранее запрограммированными фразами для специфических применений. Например, версия SP0256-17 содержит набор слов и фраз для построения «говорящих часов».

Основной версией микросхемы была SP0256-AL2, содержащая 59 аллофонов. Она применялась в голосовых модулях для множества ранних домашних компьютеров: «Tandy Speech» для TRS-80, «Currah MicroSpeech» для ZX Spectrum, «Voice Messenger» (он же «Currah Speech 64») для Commodore 64, и многие другие. Существовали решения и на основе других синтезаторов, но они были относительно редкими. Например, это устройство «Magic Voice» для Commodore 64 на загадочном чипе T6721AP.

Игровые консоли тоже не отставали от прогресса. Так, в 1982 году на рынок вышел модуль голосового синтезатора Intellivoice для первой в мире 16-битной игровой консоли Intellivision образца 1979 года. Он был построен на микросхеме SP0256-012, содержащей во внутреннем ПЗУ объёмом 2 килобайта заготовленную фразу «Mattel Electronics Presents», цифры и слова «press», «enter», «and», «or». Также дополнение могло озвучивать и любые другие сообщения под управлением внешнего процессора, считывающего их данные из картриджа с игрой.
Конечно, это дополнение стало коммерческим провалом, так как стоило порядка 100 долларов при цене самой консоли в 275 долларов, а его возможности были весьма ограничены и поддержаны всего в пяти играх. Тем не менее, оно подарило истории запоминающийся момент из заставки игры B-17 Bomber, спародированный Джеймсом «AVGN» Рольфом в 2009 году.

Аналогичные голосовые модули существовали и для других консолей второго поколения, по крайней мере для одной: «The Voice» для Odyssey². Эти устройства не имели успеха, и с приходом третьего поколения попытки создавать аппаратные голосовые дополнения благополучно сошли на нет. Впрочем, в новое время энтузиасты вернулись к этой идее и создали устройство AtariVox, которое может работать с игровыми консолями Atari 2600, Atari 7800 и Vectrex.
В переходный период появились и промежуточные решения для синтеза речи, на основе свойственных специализированным БИС алгоритмов, но реализованные полностью программно. Самым известным из них является синтезатор S.A.M., «Software Automatic Mouth», разработанный Марком Бартоном и выпущенный в версиях для компьютеров Atari, Apple II и Commodore 64. Он также использовался в игре PokerSAM 1983 года.
Качество звучания S.A.M. ниже, чем у аппаратных синтезаторов, но всё же достаточно разборчивое, и учитывая отсутствие необходимости в дополнительном оборудовании, этот синтезатор завоевал немалую популярность. Его характерный голос наверняка знаком и отечественным пользователям ZX Spectrum: в наших краях ходило немало вариаций программ-говорилок польского происхождения, явно использующих ту же самую программную основу.
Другим интересным примером программного синтеза речи является игра Impossible Mission 1984 года для Commodore 64. В ней используется аналогичная S.A.M. проприетарная технология компании Electronics Speech Systems — той самой, которая впоследствии заполонила бюджетные ПК звуковыми картами ESS. Как потом говорил разработчик игры, затраты на лицензирование этого решения сильно снизили прибыль от игры. Вероятно поэтому оно редко встречалось в играх.
Когда компьютеры и консоли обзавелись достаточным объёмом памяти для хранения сэмплов, аппаратные и программные синтезаторы речи быстро ушли в прошлое. Сэмплы позволяли воспроизводить любые фразы, любые тембры и интонации. Конечно, они занимали немало места, и поэтому поначалу это были редкие одиночные фразы, например, произносимое голосом название игры.
Пожалуй, один из наиболее отложившихся в памяти игроков ранних примеров такой реализации голоса — заставка игры Ghostbusters 1984 года, созданной по мотивам фильма «Охотники за привидениями». Изначально она была разработана для Commodore 64, где также применялась технология программного синтеза ESS, но в других версиях, например, для ZX Spectrum и NES, используются уже обычные сэмплы.
Других игр 8-битной эпохи с голосами существует на удивление много, чтобы перечислить их все. Например, в видео ниже вы можете услышать множество примеров для игровой консоли NES. Технически на ней применялись два метода: или DPCM-кодирование (сжатие 8:1 с очень сильным шумом), или нормальный PCM, занимающих значительно больше места.
Также отмечу пару личных фаворитов. Это игра Death Star Interceptor для ZX Spectrum, в которой я впервые жизни услышал компьютерный голос (об этом я рассказывал в своих недавних мини-мемуарах), а также игра Final Mission для Денди, в которой в начале каждого уровня звучит короткая фраза, описывающая его содержание.
Шестнадцать бит
Если в 8-битную эпоху голоса в играх впечатляли, но также нередко вызывали умеренное кровотечение из ушей, в эпоху 16-битных консолей и 286–386 процессоров на ПК они стали приятными и желанными, и основательно закрепились в играх. Сам факт присутствия речи в играх уже не удивлял, но теперь фразы звучали ярко, с выражением, и нередко их было большое количество.
Пожалуй, самый яркий признак наступления этой эпохи — заставка компании Sega в играх про ёжика Соника на их 16-битной Sega Mega Drive. Впервые этот голосовой джингл прозвучал в первой же игре серии в 1991 году, и потом повторялся во многих играх серии, в том числе и в её 8-битных инкарнациях.
Другой очень памятный голос — незабвенный «Finish Him!» и другие реплики закадрового голоса в исполнении Стива Ричи в серии игр Mortal Kombat, начавшей своё кровавое шествие по экранам в 1992 году. Он же по совместительству озвучивает и самого Шао Кана во второй и третьей играх серии, и, пожалуй, является пионером «крутых» голосов персонажей компьютерных игр.
И конечно, нельзя не упомянуть голос из заставки игры Dune II в версии 1993 года для Sega Mega Drive, произносящий «Dune — the battle for Arrakis» и принадлежащий не кому-нибудь, а лично Френку Клепаки, легендарному автору музыки в этой игре и в серии игр Command & Conquer. Впрочем, более ранняя версия для MS-DOS хоть и не содержит именно этой фразы, зато обладает немалым количеством речи в заставках.
Но и на игровых приставках уже в начале 1990-х некоторые игры могли похвастаться количественно богатой озвучкой. Например, впечатляющим числом речевых сообщений обладают игры Zero Tolerance и Megalomania на Sega Mega Drive. А игра Jurassic Park 2: The Chaos Continues для Super Nintendo может похвастаться полностью озвученными диалогами в заставках.
Что касается технологий, здесь всё было уже просто и понятно, и не требует подробного рассказа. С объёмами памяти, исчисляемыми уже мегабайтами, повсеместно начал применяться простой PCM для хранения оцифрованных фрагментов звука, и не только голосов. Также изредка использовались несложные алгоритмы сжатия, типа μ-law и ADPCM, чтобы уместить звук большей продолжительности при том же количестве данных.
Голос навсегда
Голос пришёл в компьютерные игры, чтобы навсегда в них остаться. Окончательно и бесповоротно он укоренился и стал непременным атрибутом практически любой игры с приходом мультимедиа на ПК и появлением CD-консолей в начале 1990-х годов.
Существенно увеличившиеся объёмы памяти на носителях (сотни мегабайт) и улучшенные технологии цифрового звука позволили воспроизводить голос с высочайшим качеством, со всеми интонациями, и в огромных количествах. Теперь в играх была не только человеческая речь, но и небольшие видеофильмы и озвученные диалоги. Персонажи игр заговорили без умолку и начали проявлять свой характер.
Думаю, наилучшей демонстрацией этого уровня развития технологии является игра Duke Nukem 3D 1996 года про незабвенного Дюка Нюкема в озвучке легендарного Джона Сент-Джона, всю игру отпускающего однострочные едкие шуточки по поводу происходящего на экране. Подобную схему задействовали и многие другие игры того времени, превратив своих экшн-героев в ходячих юмористов на полставки. И спасибо за это нужно сказать Дюку. «Hail to the king, baby!»
Но, конечно, дело не ограничилось шуточками. Появились игры с серьёзной профессиональной озвучкой и талантливыми актёрскими работами, на уровне кино и анимационных фильмов.
Вряд ли знаменитая игра Full Throttle 1995 года от LucasArts смогла бы создать свою памятную атмосферу без голосов Рэя Конрада (собственно байкер Бен), Марка Хэммила (тот самый Люк Скайуокер) и Кэт Суси (Джанин из Настоящих охотников за приведениями).
Также можно вспомнить незабвенный Warcraft II — хотя в наших краях статус мема получила фраза «нужно большое золота» из русской версии третьей части, разнообразную озвучку в Command & Conquer, и многие, многие другие игры. А некоторым играм достаточно было иметь всего лишь одну фразу, чтобы навсегда застрять в ушах и сердцах игроков.
Конечно, постепенно эффект удивления и радости от озвучки в каждой новой игре сошёл на нет. Человеческая речь зазвучала в тысячах игр, и её наличие стало само собой разумеющимся явлением. Голос пришёл и остался, а время первых ярких впечатлений безвозвратно ушло.
Заключение
Однажды ставшая технологическим чудом, сегодня речь звучит в играх повсеместно. Её количество порой избыточно — всем, наверное, знакомы собираемые в каждой второй игре дневники и аудиозаписи, которые проигрывают длиннющие голосовые сообщения одно за другим, и это уже не вызывает ничего, кроме желания нажать на кнопку отмены. И всё же, голосовая озвучка в играх — это важнейший аспект и инструмент для создания атмосферы, раскрытия характеров и изложения историй, и очень хорошо, что он у нас теперь есть.
Я намеренно обошёл вниманием ещё один очень интересный аспект человеческой речи в играх: вокальные партии и песни. Это тема для отдельного большого разговора, которую мы обязательно обкашляем в другой раз.
© 2026 ООО «МТ ФИНАНС»

