Сможем ли мы научиться разговаривать с животными при помощи ИИ? / Хабр

Люди всегда хотели разговаривать с животными. Будь то царь Соломон, Франциск Ассизский или Маугли - почти в каждой человеческой культуре существуют мифы о людях, умеющих разговаривать с животными. Во всём мире дети стремятся понять своих домашних питомцев, а родители пытаются общаться с новорождёнными, не владеющими языком. Общение с другими организмами не только позволит сопереживать животным, узнавать о других уровнях сознания и обогатит наше понимание жизни, но и будет иметь огромное практическое значение. Фермерам может быть полезна машина, позволяющая спросить корову о её здоровье, хотя в результате они могут стать вегетарианцами. Такая машина пригодилась бы и в том случае, если бы мы высадились на планету, населённую какой-нибудь простой инопланетной формой жизни, а если продвинутые инопланетяне когда-нибудь доберутся до Земли, то у них, скорее всего, уже будет такая машина.

В этом эссе мы рассмотрим вопрос о том, сможем ли мы использовать возможности революцию ИИ и больших языковых моделей (large language models, LLM) для того, чтобы разговаривать с животными. Большие языковые модели потрясли мир своей способностью разговаривать с людьми: эти алгоритмы получают сложные предложения, интерпретируют то, что хочет пользователь, и составляют новый текст, эффективно выдавая себя за человека, хотя вопрос о том, действительно ли они общаются с людьми так, как это делают люди, является спорным. Здесь мы задаёмся вопросом, можно ли разработать аналогичные алгоритмы для общения с животными. Говоря более популярно, мы ставим перед научным сообществом задачу создать "CatGPT" - машину, которая позволит нам общаться с нашими домашними кошками.

В частности, мы спросим, можем ли мы разработать машину, которая: (1) общалась с животным, используя его собственные эндогенные сигналы; (2) делала это в различных поведенческих контекстах; (3) работала так, чтобы животное давало на неё измеримую реакцию, как если бы оно общалось не с машиной, а со своим сородичем. Мы назвали эту задачу "Доктор Дулитл", отдавая дань уважения тесту Тьюринга.

Мы подробно остановимся на акустической коммуникации, но наше обсуждение можно легко обобщить на другие модальности коммуникаций, включая зрение и обоняние (которые мы вкратце затронули). Важно отметить, что мы рассматриваем проблему в терминах коммуникации, а не языка. Коммуникация животных не дотягивает до человеческого языка по нескольким ключевым аспектам. Во-первых, это ограниченная семантика - существует лишь несколько примеров сигналов животных, имеющих абстрактное значение. Во-вторых, слабый синтаксис - хотя некоторые исследования показывают, что вокальные последовательности животных упорядочены, важность этого порядка для формирования смысла (композиционный синтаксис) редко демонстрируется. И третье - ограниченность вокального обучения - за редким исключением. Большинство животных, за редким исключением демонстрируют весьма ограниченную способность включать новые сигналы в свой репертуар на основе внешнего воздействия, как это легко делает человек.

Что нужно сделать, чтобы искусственный интеллект мог разговаривать с животными?

Генерировать сигналы животных несложно. Мы можем записывать и имитировать их и даже генерировать новые. Генеративные модели ИИ, – например, генеративные нейронные сети,- уже могут достаточно хорошо имитировать общение с животными. Эти модели способны изучать статистику подаваемых им примеров и генерировать новые примеры. Так же, как они могут сгенерировать новую картину ван Гога, они могут генерировать и новую вокализацию (на рис. 1 представлена последовательность социальных вокализаций египетского крылана, которую мы сгенерировали таким образом).

Рисунок 1. Спектрограмма последовательности вокализаций египетского крылана, сгенерированная с помощью генеративной нейронной сети.

Для генерации последовательности мы сначала обучили модель генеративной состязательной сети (generative adversarial network, GAN) на нескольких тысячах криков взрослых крылановых, а затем использовали модель для генерации новой последовательности, никогда ранее не произносившейся летучими мышами (на основе наших неопубликованных данных).

Современные сети типа «трансформер», на которых основаны LLM, и будущие алгоритмы ИИ станут ещё более эффективными в изучении статистики данных и генерации новых данных, но для прохождения испытания "Доктор Дулитл" имитации общения с животными недостаточно. Чтобы действительно общаться с животными, мы должны сначала декодировать их сигналы, а затем имитировать их общение в правильном контексте, чтобы вызвать правильную реакцию. На пути к этому мы выявили несколько фундаментальных препятствий.

Во-первых, текст против контекста. Как было показано выше, мы уже можем генерировать новый "текст", то есть новые примеры коммуникации, но мы не имеем представления о смысле этих примеров или хотя бы об их контексте. Для того чтобы расшифровать контекст общения, учёные обычно размечают сигналы, издаваемые в разных контекстах, а затем проверяют, можно ли различить их статистически. Мы проделали такую работу с вокализами крылановых и показали, что можем различать контекст вокализации на основе её спектра. ИИ, безусловно, продвинул нас вперёд в этом отношении, позволив работать с данными высокой размерности и избавив от необходимости заранее определять информативные характеристики сигналов. Однако при определении контекста сигналов человек ограничен своим "умвельтом". Мы используем термин "умвельт" для обозначения того, что выходит за рамки видового сенсорного восприятия и включает в себя весь образ жизни человека. В случае коммуникации крылановых мы можем назвать только такие контексты, как кормление, сон или спаривание, основываясь на нашем человеческом восприятии. Это препятствие тесно связано с текущей дискуссией о способности ChatGPT понимать, что он генерирует: текст или контекст?

Во-вторых, получение правильного естественного ответа. Одним из распространённых подходов к преодолению этой человеческой предвзятости является использование неконтролируемого подхода, когда все данные делятся на кластеры на основе некоторого критерия сходства без какой-либо человеческой аннотации. Чтобы подтвердить, что такой подход позволяет выявить реальные кластеры контекста, необходимо провести эксперимент - измерить реакцию. Животное должно по-разному и адекватно реагировать на сигналы разных контекстов. Например, оно должно убегать, когда мы передаём сигнал тревоги, и приближаться или подавать голос, когда мы генерируем сигнал контакта. Как мы покажем ниже, измерение реакции часто оказывается нетривиальной задачей, поскольку во многих случаях не существует чёткой внешней измеряемой реакции.

Важно отметить, что поскольку ИИ обладает огромной статистической мощностью и способен изучать любые статистические корреляции, имеющиеся в данных, к кластеризации на основе ИИ следует относиться с большой осторожностью. В литературе можно найти множество примеров, когда ИИ вместо реальных сигналов обнаруживал фоновый шум. Вероятность таких ошибок очень высока при использовании реальных данных о коммуникации животных (в отличие от часто используемых обрезанных изображений или текста). Более того, неспособность сгенерировать ответ может быть результатом полного пропуска дополнительных сигналов, которые транслируются в каналах, к которым мы, люди, не имеем прямого доступа. Например, мы можем сосредоточиться на акустических сигналах, которые важны для нас, и пропустить летучие вещества, которые выделяют животные.

Отметим, что для прохождения испытания "Доктор Дулитл" животное должно ответить без обучения, даже если оно впервые увидело наш сигнал. Люди уже давно учат животных общаться с помощью ассоциативного обучения, и их способность к такому обучению может быть просто поразительной. Можно научить собаку ассоциировать сотни действий с голосовыми командами человека, но в данном очерке речь пойдёт об общении с животными с помощью их собственных естественных коммуникативных сигналов. Экологи различают сигналы, которые эволюционировали для передачи сообщения от отправителя к получателю, и сигналы, которые могут нести информацию, хотя и не эволюционировали для этого. Запах навоза привлекает жуков-навозников издалека, хотя он не является сигналом, эволюционировавшим для этого.

Третье и последнее - препятствие Витгенштейна: даже если нам удастся выявить контекст в общении животных и генерировать сигналы, вызывающие ответную реакцию, мы (скорее всего) никогда не сможем общаться с животными о контекстах, которые не входят в их коммуникативный репертуар. В силу бедности семантики и синтаксиса их общения, если кошки не говорят друг с другом о своих чувствах или не считают каламбуры смешными, мы никогда не сможем спросить их "как они себя чувствуют" или объяснить, что ChatGPT по-французски уже означает CatGPT (и что это может быть смешно).

Это третье препятствие может резко ограничить наши возможности в области межвидового общения, поскольку многие исследования показывают, что общение животных между собой в значительной степени завязано только на их уровень возбуждения. А раз так, то и "разговаривать" с этими видами не о чем. Другими словами, мы могли бы разработать алгоритм, кодирующий степень злости нашей кошки на нас за то, что мы столкнули её с клавиатуры, но уже сегодня мы можем это сделать без сложных алгоритмов ИИ. Витгенштейн, как известно, утверждал, что: "Даже если бы лев умел говорить, мы не смогли бы его понять". Его аргумент дополняет наш, поскольку предполагает, что общение животных может быть не только бедно контекстом, но и, вероятно, включать в себя контексты, совершенно чуждые нам. Человеческий язык в этом смысле уникален, поскольку позволяет описывать явления, находящиеся за пределами нашего восприятия, например, что такое зрение для слепого человека. Это пригодится нам, если когда-нибудь придётся разговаривать с разумными инопланетянами, у которых может быть совершенно иной умвельт, чем у нас.

Некоторые примеры

Танец медоносной пчелы часто приводится в качестве лучшего примера семантики в животном мире. С помощью определённой серии движений, известной как "танец пчёл", пчёлы передают векторную информацию о местонахождении доступной пищи. В этом случае измерить реакцию животного на сигнал (препятствие номер два) несложно, поскольку получатель информации летит именно туда, куда указывал танец. Танец пчёл - это уникальный случай, когда, похоже, человек в какой-то степени "взломал" коммуникацию животных и, таким образом, может общаться с ними в одном конкретном контексте. Действительно, в недавнем исследовании было показано, что роботизированная пчела способна заставить пчёл следовать указаниям танцующего робота и лететь в определённое место в поле, что соответствует критериям задачи доктора Дулитла в одном конкретном контексте.

Однако, как было сказано выше, мы, скорее всего, никогда не сможем спросить пчелу "как ты себя чувствуешь сегодня", используя танец пчёл (препятствие номер три). Более того, этот танец, вероятно, несёт в себе гораздо больше информации, чем может показаться на первый взгляд, включая тонкие тактильные и акустические сигналы, говорящие о качестве ресурса. Эти данные также нужно будет собрать и передать алгоритму ИИ, если его попросят взломать код, но мы даже не знаем, какие ещё типы данных нужно будет регистрировать и какой канал связи для этого подойдёт (препятствие номер один). Достаточно ли будет обоняния и акустических записей, или необходимо также регистрировать электрические поля? Человек ещё не расшифровал смысл этих сигналов, и мы утверждаем, что три вышеупомянутых препятствия сделают эту задачу чрезвычайно трудной.

Есть ещё несколько примеров, когда учёным удалось заставить животных реагировать на эндогенные коммуникационные сигналы с помощью роботов. В качестве примера можно привести робота-лягушку, похожую на самку, которая смогла привлечь настоящих лягушек-самцов к попытке спаривания с ней, и рыбу-робота, которая взаимодействовала с живыми рыбами во время их сбивания в косяк и влияла на их движение.

Примечательно, что все эти роботы общались с животными в одном контексте (кормление, спаривание или передвижение). Более того, во всех этих случаях не требовалось никакого искусственного интеллекта, поскольку соответствующие сигналы, вызывающие ответную реакцию, были совершенно очевидными. Такие сигналы, вызывающие явную реакцию, экологи впервые назвали знаковыми стимулами (sign-stimuli) (термин придумал Нико Тинберген). Аналогичным образом, основные принципы танца пчёл были расшифрованы почти 100 лет назад, ещё до появления компьютеров, с помощью тщательных экспериментов, и всё дополнительное понимание, полученное с тех пор, было вторичным. Мы утверждаем, что не случайно до сих пор были созданы только машины, использующие очень важные коммуникационные сигналы. В коммуникации животных многое зависит не от самого сигнала, а от тонкостей его подачи. Как и механический соловей китайского императора из сказки Андерсена, ни один из этих роботов не пытался имитировать нюансы общения с животными и поэтому, скорее всего, потерпел бы неудачу в конкуренции с реальными сородичами.

Другой хорошо изученной системой коммуникации является ухаживающее (и территориальное) пение певчих птиц, которое считается ярким примером коммуникативной виртуозности. Некоторые певчие птицы демонстрируют развитые способности к вокальному обучению, включая способность к усвоению синтаксических правил, определяющих порядок следования слогов в последовательности. Эти способности привели к развитию местных песенных диалектов, в некоторой степени напоминающих диалекты человека. Несмотря на эти особенности, певчие птицы, по-видимому, обладают очень слабой семантикой, что ограничивает их роль во внутривидовой коммуникации. Вероятно, самка может извлечь ценную информацию о возможности спаривания с конкретным самцом, основываясь на его пении, но это никак не влияет на нашу способность общаться с птицами.

Исследования коммуникативных сигналов певчих птиц, таких как сигналы тревоги, которые не считаются частью песенного репертуара, позволили получить некоторое представление об их общении, что в какой-то степени даже позволяет нам его «взломать». Исследователи выявили различные типы сигналов тревоги птиц (и млекопитающих) и даже смогли вызвать у этих организмов реакцию тревоги с помощью акустического воспроизведения. Более того, некоторые животные имитируют гетероспецифические сигналы тревоги, чтобы обмануть их. Однако, как и в случае с танцем пчёл, учёные по-прежнему ограничиваются общением в очень специфических контекстах (таких, как тревога), и пока неясно, как ИИ сможет продвинуть нас дальше.

На другой крайности коммуникационного спектра находятся нематоды Caenorhabditis elegans, использующие в основном химическую коммуникацию. Этот модельный организм обладает относительно простой, стереотипной и полностью расшифрованной нервной системой, состоящей всего из 302 нейронов. Геном червя кодирует более тысячи рецепторов, распознающих различные химические вещества. Для общения с сородичами C. elegans выделяет множество метаболитов, например феромоны, такие как аскарозиды. Достижения в области метаболомики на основе масс-спектрометрии позволяют проследить тысячи таких химических веществ и обнаружить, что букет запахов, выделяемых червями, динамичен и меняется в зависимости от контекста (например, он существенно различается у разных полов). Поведение червя мы оцениваем по его движениям, которые, поскольку червь представляет собой приблизительно кривую линию, может полностью представить в виде вектора углов. Человеку кажется, что червь обладает ограниченным набором поведенческих репертуаров, не имеющих поддающегося количественной оценке синтаксиса (порядка). Важно отметить, что уже сейчас можно одновременно регистрировать работу всей нервной системы C. elegans (с помощью кальциевой визуализации). Может ли ИИ использовать такие данные для общения с червями?

Другими словами, если мы будем записывать движения миллионов червей и параллельно измерять их химическую секрецию и мозговую активность с разрешением в один нейрон и подавать всю эту информацию в мощный алгоритм ИИ, сможет ли он пройти тест доктора Дулитла?

Иногда высказывается мнение, что алгоритмы ИИ могут просто проанализировать массу данных и выявить закономерности, например, определить, какие букеты веществ выделяются при той или иной позе и активности нейронов червей. Из-за ограниченного числа поз, которые принимают черви, их движения, вероятно, весьма неоднозначны и неразличимы в различных контекстах, поэтому мы сосредоточимся на их нейронной активности. Такой подход, основанный на статистической «грубой силе», может дать новые сведения о коммуникации червей - например, показать, что определённый букет веществ выделяется в корреляции с определённым нейронным состоянием. Более того, снабжение алгоритмов искусственного интеллекта непрерывными нейронными записями, вероятно, позволит выявить различимые внутренние состояния. Но позволит ли это нам понять червей, не говоря уже об общении с ними? Обнаружение того, что определённое нейронное состояние коррелирует с коммуникативным сигналом, просто переводит проблему на другой уровень - нейронный, но все три вышеупомянутых препятствия всё равно останутся.

Например, нам необходимо решить, какие контексты являются значимыми для животного и что они для него значат, а также измерить ответную реакцию. Хотя черви, безусловно, выделяют химические вещества для общения, мы не знаем, "отвечают ли они" кому-либо, выделяя эти вещества, и если нет, то что считать ответом? Можно ли считать ответом поворот тела на 30 градусов? Существует также множество технических проблем. Например, необходимо определить, каковы соответствующие временные масштабы: нужно ли измерять выделения каждые 5 секунд или каждый час? Это трудные вопросы, которые останутся трудными даже в том случае, если вычислительная мощность ИИ существенно возрастёт.

Наконец, приматы, а среди них и обезьяны, как наши ближайшие родственники, представляют собой, пожалуй, наиболее привлекательный аргумент в пользу межвидовой коммуникации, особенно при поиске истоков нашей собственной коммуникации. Приматы и обезьяны общаются с помощью сложной комбинации вокализации, жестов и демонстраций. Начиная с Ричарда Гарнера, который в конце 1870-х гг. стал первопроходцем в области записи вокала приматов, стремясь расшифровать язык обезьян, много усилий было направлено на расшифровку вокальной коммуникации приматов. Сам Гарнер первым использовал парадигму воспроизведения, записывая вокальные звуки приматов и затем воспроизводя их другим людям. Его результаты были подвергнуты серьёзному сомнению, и метод воспроизведения был заброшен в исследованиях приматов почти на 100 лет, пока Сейфарт и др. не использовали его для выявления у верветок специфических для хищников сигналов тревоги. Попытки научить обезьян человеческому вокальному языку путём их выращивания вместе с людьми в основном не увенчались успехом, хотя некоторые успехи были достигнуты в изучении языка жестов, что позволяет предположить наличие у них символической способности при отсутствии вокальных способностей. На самом деле в этой области существовала догма, что приматы не способны к вокальному обучению, однако все новые и новые исследования приводят доказательства, опровергающие это утверждение.

Учитывая всё вышесказанное, подход, аналогичный предложенному для C. elegans, заключается в непрерывной аудио- и видеозаписи взаимодействия приматов. Это было бы очень сложно сделать в дикой природе с естественными препятствиями. Однако несколько недавно разработанных алгоритмов машинного обучения позволяют автоматически отслеживать движения всех суставов животного. Это позволяет представить его позу в виде трёхмерного вектора, но, в отличие от ситуации с червями, этого может быть недостаточно для полного описания позы. У бабуина может быть одна и та же поза в двух разных состояниях: любопытства и бдительности/готовности к бегству, но если в первом случае мышцы будут расслаблены, то во втором - сокращены и готовы к действию. Тем не менее, эти данные о частичных позах могут быть введены в мощный алгоритм обучения, который, вероятно, найдёт корреляции между определёнными последовательностями и позами и определёнными вокализами. Однако вышеупомянутые препятствия, такие как определение соответствующих контекстов и того, что будет считаться реакцией, создадут высокие барьеры и здесь, и поэтому неясно, приблизит ли это нас к общению с ними.

В заключение следует отметить, что гигантский скачок в развитии искусственного интеллекта значительно расширил наши возможности по кодированию данных и выполнению прогнозов на основе невидимых данных или даже генерации новых данных. Эти достижения могут быть применены и к общению с животными. Они, вероятно, позволят лучше понять особенности общения с животными, но не обязательно позволят общаться с ними. Мы указываем на ряд препятствий, которые существенно мешают нам "разговаривать" с животными, и утверждаем, что эти препятствия являются неотъемлемыми и не исчезнут, даже если мощность ИИ возрастёт в миллион раз. Наша точка зрения может показаться пессимистичной, но мы не стремимся отговаривать от осуществления подобных попыток. Наша цель - подчеркнуть трудности, присутствующие на этом пути, но параллельно мы привели и несколько примеров частичного успеха в общении с животными.

Даже если мы никогда не сможем разговаривать с животными по-человечески, понимание того, насколько сложна коммуникация животных и попытки её имитации, представляет собой увлекательное научное занятие, имеющее множество практических и коммерческих преимуществ. Кроме того, многое ещё неизвестно. Возможно, некоторые виды животных используют более сложные системы коммуникации, чем те, которые были продемонстрированы до сих пор, возможно, но не обязательно, они используют недоступные для нас сенсорные модальности. Достижения в области нейронной записи также, возможно, получится использовать таким образом, который мы сейчас не можем себе представить - и это лишь несколько примеров. Таким образом, мы призываем учёных применить ИИ для расшифровки коммуникации животных в соответствии с критериями задачи Доктора Дулитла, то есть разработать машины, которые будут общаться с животными, используя их собственные сигналы, в различных контекстах, так, чтобы они реагировали на машины так, как если бы они реагировали на своего сородича.