Применение искусственного интеллекта в синтетической химии / Хабр

Интервью с профессором Игорем Баскиным, доктором физико-математических наук, ведущим научный сотрудник физического факультета МГУ.

В чем самая большая сложность для нейронных сетей, чтобы научиться устанавливать взаимосвязь между структурой вещества и его физическими и химическими свойствами?

Самая большая сложность и ключевая особенность применения нейронных сетей, как и любого другого метода машинного обучения, для поиска соотношений между структурой и свойствами химических веществ заключается в том, что в этом случае они должны моделировать реальную природу с ее чрезвычайно сложной и порой неизвестной организацией, управляемую строгими, но не всегда применимыми на практике законами.

В этом состоит фундаментальное отличие от стандартных задач, решаемых при помощи нейронных сетей, например, распознавания изображений. Действительно, то, что цифра 8 изображается в виде двух соприкасающихся окружностей, не является следствием каких-либо законов природы – это просто предмет соглашений между людьми. А вот римляне в свое время решили, что для них лучше изображать это же число как VIII. Поскольку такие соглашения делаются ради удобства, их форма выбирается такой, чтобы естественные нейронные сети в голове у человека очень легко на подсознательном уровне их распознавали.

Поэтому, как мне кажется, и искусственные нейронные сети, которые в какой-то мере имитируют определенные аспекты обработки информации в голове у человека, с ними тоже легко справляются.

А теперь перейдем к химическим веществам. То, что аспирин оказывает противовоспалительное действие, обуславливается возможностью входящих в его состав молекул ацетилсалициловой кислоты ингибировать фермент циклооксигеназу благодаря комплементарности пространственных форм молекул лекарства и фермента и благоприятному балансу множества сил, действующих в системе.

Задача прогнозирования свойств химических веществ в зависимости от их строения, в отличие, например, от задачи распознавания изображений, никогда раньше в процессе эволюции не встречалась, и потому естественные нейронные сети в нашем мозгу не могут с такой же легкостью ее решать на подсознательном уровне.

Действительно, любой ребенок (и даже некоторые животные) может легко отличить на картинке кошку от собаки, но даже десяток нобелевских лауреатов, посмотрев на формулу химического соединения, вряд ли сразу же точно угадают полный набор его свойств.

Это уже задача другого уровня сложности. В ее решении большой проблемой является даже то, что обычно вообще не воспринимается как нечто сложное, например, как представить нейронной сети анализируемый объект. При обработке изображений, например, естественным представлением является набор интенсивностей пикселов.

А вот то, как лучше всего представить для нейронной сети строение вещества – это уже задача из задач, и она не имеет столь простых решений. Используемые для ее решения системы т.н. молекулярных дескрипторов, т.е. специальных вычислительных процедур, позволяющих описать строение вещества с помощью набора чисел, обладают множеством недостатков. Тем, как лучше всего представлять и обрабатывать информацию о химических веществах занимается очень интенсивно развиваемая в последние годы наука – хемоинформатика.

Без опоры на научный багаж, накопленный в хемоинформатике, любая попытка использовать нейронные сети для установления связи между строением вещества и его свойствами превращается в чистую игру с числами и не приводит к практически важным результатам. В этом, наверное, и заключается основная сложность использования нейронных сетей для этой цели.

Назовите 10 основных задач для искусственного интеллекта в синтетической химии?

1. Как синтезировать заданное химическое соединение из доступных реагентов?
2. Как синтезировать химическое соединение, обладающее заданной активностью?
3. Как будет выглядеть и как синтезировать комбинаторную библиотеку химических соединений, ориентированную на заданный тип биологической активности?
4. Что получится в результате реакции, если смешать заданные химические соединения в заданных условиях?
5. В каких условиях следует проводить заданную реакцию? Как оптимизировать такие условия (температура, растворитель, катализатор, добавки)?
6. Какой вероятный механизм у заданной реакции?
7. Как увеличить выход у заданной реакции?
8. Перечислить возможные химические реакции
9. Оценка синтетической доступности (легкости синтеза) заданного соединения.
10. Предсказать кинетические и термодинамические характеристики простых реакции и выход сложных реакций.

Что из себя представляет задача — расчет всех возможных химических реакций?

Возможно, это комбинация двух вышеперечисленных задач: (8) перечисление возможных химических реакций и (10) предсказать для них кинетические и термодинамические характеристики и выход.

Какой способ сейчас наилучший в хемоинформатики представления о структуре вещества? Какие-нибудь многомерные матрицы? Насколько они полно описывают всю структуру? Есть ли пробелы, которые нужно заполнить?

Простого и однозначного ответа на этот вопрос не существует. Все зависит от того, о каких типах веществ идет речь, а также при каких условиях и в каких агрегатных состояниях они рассматриваются. Кроме того, выбор конкретного типа представления зависит от того, с какой целью оно делается – для однозначной идентификации вещества, хранения в базе данных, для построения каких-либо моделей, для передачи информации между программами.

В хемоинформатике для всех этих целей, как правило, используются разные представления. Наиболее простым случаем являются насыщенные углеводороды – органические соединения, состоящие только из атомов углерода и водорода и не содержащие кратных связей. Для их представления удобно использовать графы, в которых вершины соответствуют атомам углерода, а ребра – связям между ними. Интересно отметить, что именно задача объяснения наличия различных изомеров у органических соединений послужила стимулом для создания и разработки основ теории графов, а задача перечисления изомеров – комбинаторной теории групп. Оба эти раздела дискретной математики в дальнейшем нашли очень широкое применение практически во всех областях научных знаний.

Следующий уровень усложнения – произвольные низкомолекулярные органические соединений. Таковыми являются, например, молекулы большинства лекарственных препаратов, а также исходные реагенты и полупродукты для их синтеза. Для их идентификации также удобно использовать графы, но на этот раз с мечеными вершинами и ребрами. Метками вершин в этом случае служат обозначения химических элементов, а метками ребер – порядки связей.

Для внутреннего представления молекул в оперативной памяти компьютера можно в этом случае использовать матрицы связности графов, но реально чаще пользуются сложными структурами данных, включающими таблицы атомов и связей.

Для эффективной организации поиска структур в базах данных и их сравнения между собой наибольшей популярностью среди представлений пользуются специальные битовые строки, называемые «молекулярными отпечатками пальцев» (фингерпринтами).

Для построения моделей, связывающих структуры соединений с их свойствами, в качестве представлений используются вектора признаков, называемых в хемоинформатике «молекулярными дескрипторами». Существует огромное разнообразие (тысячи!) различных типов молекулярных дескрипторов.

Для обмена информации между программами и для «внешнего» представления химических структур наибольшей популярностью в настоящее время пользуются текстовые строки, называемые SMILES. Задача представления органических соединений осложняется такими сугубо химическими явлениями, как электролитическая диссоциация, мезомерия и таутомерия, вследствие чего одно органическое вещество может быть описано целым набором различных графов и, следовательно, может иметь несколько представлений, из которых для целей идентификации обычно выбирают «каноническое» представление.

Задача еще более осложняется, если необходимо учесть геометрическую и пространственную изомерию (стереоизомерию), что не всегда возможно сделать на уровне графов и часто требует элементов гиперграфового представления. Также для целей моделирования требуется учесть наличие у гибких молекул множества пространственных форм – конформеров. Все эти обстоятельства должны быть учтены при выборе представлений химических веществ для машинного обучения.

На следующих уровнях усложнения, например, при переходе к супрамолекулярным комплексам, синтетическим полимерам, твердотельным материалам, задача поиска наиболее адекватного представления для структуры вещества становится еще более сложной, и для нее к настоящему времени не предложено удовлетворительного решения.

Существующие подходы в информатике полимеров и кристаллов ориентированы главным образом на моделирование, и то для самых простых случаев, а попыток создания информатики для супрамолекулярной химии еще не предпринималось. Таким образом, здесь надо говорить не о пробелах, а о небольших исследованных территорий внутри большой terra incognito.

Для интересующихся методами представлений химических веществ на компьютере я бы рекомендовал нашу монографию: Т.И.Маджидов, И.И.Баскин, И.С.Антипин, А.А. Варнек «Введение в хемоинформатику. Компьютерное представление химических структур». Казань: Казан. ун-т, 2013, ISBN 978-5-00019-131-6.

Какие основные достижения в синтетической химии произошли в этом году?

Синтетической органической химии уже почти 200 лет, и основной пик ее развития как фундаментальной науки пришелся на вторую половину прошлого века, когда были сформулированы ее основные законы и показана реальная возможность синтезировать вещества любого уровня сложности.

Сейчас все больше говорят о синтетической химии как об уже устоявшейся прикладной дисциплине, главной задачей которой является поиск оптимальных способов получения веществ с необходимыми свойствами. Вследствие этого она давно уже разделилась на множество областей (например, медицинская химия, нефтехимия, катализ, химия различных типов материалов), в каждой из которой идет непрерывное поступательное развитие.

Для меня наибольший интерес представляют работы последних лет в области роботохимии – новой научно-прикладной дисциплины, направленной на автоматизацию процесса синтеза веществ при помощи специальных роботов, работающих под управлением компьютеров.

Особенно хотелось бы отметить достижения последних лет по созданию миниатюрных химических реакторов, интегрированных в компьютерные чипы, что позволяет осуществлять синтез, выделение, анализ и даже биологические испытания синтезированных веществ в буквальном смысле внутри компьютера под управлением искусственного интеллекта.

Каковы успехи машинного обучения в синтетической химии? Где мы стоим?

Начну с пояснения исторического контекста. С тех пор, когда в пятидесятых годах прошлого века появился термин «искусственный интеллект», химия (и в особенности синтетическая органическая химия) рассматривалась, наряду с медицинской диагностикой, как одна из основных сфер его будущего применения. Большинство остальных задач было поставлено значительно позже.

На первом этапе его развития основной упор делался на использование т.н. экспертных систем, основанных на хранимых в базах знаний правилах, сформулированных химиками-экспертами, и механизме логического вывода.

Первой успешной экспертной системой в области синтетической химии стала разработанная под руководством нобелевского лауреата по химии Элайаса Кори к началу 70-ых годов прошлого века программа LHASA. Можно утверждать, что LHASA совершила в свое время революцию как в области синтетической органической химии, так и искусственного интеллекта, и определила основные направления развития компьютерной синтетической химии на долгие годы вперед. Так получилось, что именно синтетическая химия стала той области, где еще в 80-ых годах возможности искусственного интеллекта подошли очень близко и почти сравнялись с возможностями опытных химиков-синтетиков. Это и определило в 70-ые и 80-ые годы популярность синтетической химии среди специалистов по искусственному интеллекту.

Тем не менее, несмотря на большие успехи, достигнутые искусственным интеллектов в области синтетической химии, к 90-ым годам популярность этого направления резко уменьшилась и даже практически стала нулевой.

Произошла парадоксальная вещь, до сих пор обсуждаемая в кругу специалистов. Хотя возможности компьютера по планированию синтеза подошли близко к возможностям химиков-синтетиков, последние все равно нужны, чтобы проводить синтез, и никакой компьютер их в этом не заменит. В результате этого компьютерная программа стала восприниматься как дорогостоящая «игрушка», без которой можно обойтись и на которую не стоит тратить деньги. Это как раз совпало с началом «зимы» в области искусственного интеллекта, когда стали ясны принципиальные недостатки основанных на правилах экспертных систем: лишь небольшая часть знаний может быть представлена и сформулирована экспертами в виде четких правил, и поэтому их основная масса, воспринимаемая экспертами лишь на уровне интуиции, оказывается незадействованной в рамках экспертных систем.

Примерно это и привело в свое время к краху некогда амбициозной японской программы компьютеров пятого поколения.

Первые работы по использованию машинного обучения в планировании синтеза появились в конце 80-ых и начале 90-ых годов как попытки преодолеть вышеупомянутый недостаток основанных на правилах экспертных систем, научив компьютер самостоятельно (без помощи людей-экспертов) извлекать знания по реакционной способности химических соединений из начавших тогда формироваться баз данных, содержащих сведения об опубликованных в литературе химических реакциях.

Сначала эти знания имели форму правил, предназначенных для пополнения баз знаний, входящих в существующие экспертные системы, а потом стали извлекаться и «нечеткие» правила, имитирующие интуицию химика-синтетика, для чего еще в начале 90-ых годов стали использоваться нейронные сети. Надо сказать, что и в настоящее время задача автоматического извлечения знаний о реакционной способности из баз данных по опубликованным реакциям для последующего использования в рамках экспертных систем нового поколения является центральным направлением применения машинного обучения в синтетической химии.

Другим важным направлением сейчас является также и использование машинного обучения для установления связи между структурой вещества и его свойствами, что позволяет осуществлять синтез тех веществ, которые, согласно построенным моделям, должны характеризоваться нужным набором свойств.

Первые примеры автоматического извлечения данных использовали базы данных из десятков реакций, дальше пошли тысячи, десятки тысяч, а сейчас работа уже идет с миллионами и десятками миллионов реакций, которые охватывают уже все реакции, проведенные во всем мире за 200 лет существования синтетической химии. Произошел переход количество в качество, и мир вступил в эпоху «больших данных» (big data). С начала 90-ых годов мощность компьютеров возросла на несколько порядков, особенно с появлением графических карт GPU.

В последние годы также и стала доступна методология «глубокого обучения» (deep learning), позволяющая извлекать из большого объема данных знания, основанные на очень сложных закономерностях. Все это привело в последние годы к взрыву интереса к использованию искусственного интереса в синтетической химии. За последние два года было опубликовано больше важных и интересных работ, чем за предыдущие 20 лет вместе взятых. Таким образом «зима» закончилась и сразу же без «весны» сменилась очень «жарким летом». В настоящее время вследствие огромного объема накопленных знаний человеку, даже очень опытному химику-синтетику, становится очень сложно состязаться с искусственным интеллектом в планировании синтеза.

Для желающих разобраться в этом вопросе более подробно я бы рекомендовал нашу только что вышедшую монографию: И.И.Баскин, Т.И.Маджидов, А.А.Варнек «Введение в хемоинформатику. Часть 5. Информатика химических реакций». Казань: Казан. ун-т, 2017, ISBN 978-5-00019-907-7.

Насколько близки мы, чтобы перечислить возможные химические реакции? Науке известно порядка 90 миллионов реакций? Какой порядок неизвестного?

Перечислять можно только что-то дискретное и четко различающиеся между собой, например низкомолекулярные органические соединения, которые описываются разными графами. В случае же реакций сама постановка задачи перечисления является очень неочевидной. Например, реакция гидролиза этилацетата и метилацетата – это разные реакции или два примера одной и той же реакции?

Гидролиз этилацетата в щелочной и кислой средах – это разные реакции или одна и та же реакция, проводимая в разных условиях? Таким образом, сама по себе постановка перечисления реакций имеет смысл только в рамках конкретной схемы классификации реакций, определяющей, что считается одной реакцией, а что разными.

Существует множество разных схем классификации органических реакций, и все они имеют многоуровневую иерархическую структуру. На самом низком (подробном) уровне, где реакции образования разных соединений считаются разными реакциями, число реакций не может быть меньше числа химических соединений, а низкомолекулярных соединений даже по самым скромным оценкам 10 в степени 60, то есть значительно больше, чем элементарных частиц во всей Вселенной. На самом же высоком (абстрактном) уровне их может быть очень мало. Например, большинство элементарных стадий органических реакций описываются всего лишь несколькими общими схемами перераспределения связей. Все зависит от того, что мы вкладываем в понятие перечисления реакций.

Опишите, пожалуйста, более подробно задачу: «Как будет выглядеть и как синтезировать комбинаторную библиотеку химических соединений, ориентированную на заданный тип биологической активности?»

Допустим, известно, что некоторые соединения определенного класса (например, замещенные пиразолы) проявляют желаемый вид биологической активности. Задача состоит в том, чтобы синтезировать другие представители этого же класса в одну стадию с высоким выходом, комбинируя различные прекурсоры (исходные реагенты для синтеза) из каталога коммерчески доступных веществ.

Синтезированный таким образом набор (библиотеку) химических соединений можно отдать на биологические испытания, которые вполне могут выявить соединения с улучшенным набором свойств. Это вполне реальная задача, часто возникающая при разработке новых лекарственных препаратов на этапе «оптимизации свойств лидера» (lead optimization).

Компьютерная программа в этом случае должна предложить метод синтезов соединений выбранного класса в одну стадию из нескольких прекурсоров, найти в каталоге подходящие для этого прекурсоры и для каждой их комбинации оценить возможность протекания реакции синтеза с высоким выходом. На решение подобных задач ориентирован, например, один из модулей компьютерной системы WODCA (W.-D. Ihlenfeldt, J. Gasteiger, Angew. Chem., Int. Ed. Engl., 1995, 40, 993-1007).

Какие научные группы в мире – лидеры использования ИИ в синтетической химии? Каковы их достижения?

Таких групп уже много. Выборочно перечислю несколько групп, активно работающих в настоящее время в этом направлении.

1. Й. Гастайгер (J. Gasteiger, Эрланген, Германия) – один из «отцов» хемоинформатики, внесший огромный вклад в формировании хемоинформатики как науки, пионер в использовании нейронных сетей в химии. Под его руководством разработано несколько компьютерных систем планирования органического синтеза: EROS, WODCA. В плане использования ИИ в синтетической химии особый интерес представляют его работы по использованию самоорганизующихся нейронных сетей Кохонена для картирования химических реакций и извлечения знаний о реакционной способности органических соединений.

2. Г. Шнайдер (G. Schneider, Цюрих, Швейцария). С точки зрения использования ИИ в синтетической химии большой интерес вызывает реализованный в программе DOGS подход, позволяющий для заданного биологически активного соединения найти структуры его аналогов вместе с путями их синтеза с использованием набора легко осуществимых органических реакций и каталога доступных реагентов для синтеза. Особый интерес представляет также разработанная в его группе платформа ALOE, предназначенная для автоматической оптимизации соединения-лидера (при разработке лекарственных препаратов) с использованием технологии микропроточного синтеза с помощью чипов под управлением программных средств на основе методов машинного обучения.

3. К. Фунатсу (K. Funatsu, Токио, Япония). Под его руководством разработана экспертная система планирования органического синтеза KOSP, основанная на правилах, автоматически извлекаемых из базы данных по реакциям. На этих же правилах основана и система SOPHIA для предсказания продуктов химических реакций.

4. Б. Гжибовски (B.A. Grzybowski, Эванстон (Иллинойс), США и Варшава, Польша). Основной продукт – Chematica. Это планировщик и оптимизатор синтеза, основанный на «сети органической химии», представляющей собой «граф знаний», включающий в качестве вершин 10 миллионов химических соединений и 10 миллионов связывающих их реакций.

5. П. Бальди (P. Baldi, Ирвайн (Калифорния), США). Интересные разработки: Reaction Explorer (основанная на правилах экспертная система для прогнозирования продуктов органических химических реакций) и Reaction Predictor (нейросетевая система, предназначенная для прогнозирования продуктов реакций с учетом их механизмов)

6. У. Грин и К. Дженсен (W.H. Green, K.F. Jensen, Кэмбридж (Массачусетс), США) Разработана универсальная система прогнозирования продуктов реакций органических соединений, сочетающая использование реакционных правил с нейросетевым моделированием с помощью глубокого обучения.

7. М. Уоллер (M.P. Waller, Мюнстер, Германия и Шанхай, Китай) Разработана основанная на «нейросимвольном» (neurosymbolic) подходе универсальная система планирования органического синтеза и прогнозирования продуктов реакций органических соединений, сочетающая использование автоматически извлекаемых реакционных правил с нейросетевым моделированием с помощью глубокого обучения.

8. А. Варнек (A. Varnek, Страсбург, Франция) Одна из наиболее активных групп в области хемоинформатики. Разработана концепция «конденсированного графа реакции», позволившая осуществлять поиск по сходству в базах данных по реакциям, применять алгоритмы машинного обучения к данным по реакциям, прогнозировать оптимальные условия осуществления синтеза, строить карты химического пространства реакций.

9. Т.М. Маджидов (Казань, Российская Федерация) В настоящее время это единственная в Российской Федерации активно работающая группа, осуществляющая исследования в области информатики синтетических реакций в органической химии. В ее рамках осуществлено прогнозирование кинетических и термодинамических характеристик химических реакций, создана экспертная система по защитным группам в органическом синтезе, осуществлено картирование пространств химических реакций. Большинство работ осуществляется в тесном сотрудничестве с лабораторией хемоинформатики Страсбургского университета (А. Варнек).

Последнее десятилетие активно обсуждается прогресс, достигнутый в области предсказания кристаллических структур веществ — направлении, которое долгое время считалось едва ли не безнадёжным. При помощи эволюционного алгоритма USPEX Оганова-Гласса удалось открыть множество новых стабильных химических соединений, ранее обойдённых вниманием химиков. Как вы считаете — каковы перспективы эволюционного подхода в области синтеза сложных органических молекул? Стоит ли на ваш взгляд ждать в ближайшее десять лет успехов в этом направлении?

Эволюционный подход (главным образом, генетический алгоритм) активно используется в хемоинформатике уже более 25 лет и считается традиционным методом стохастической оптимизации. На нем основано большинство известных алгоритмов молекулярного докинга – процесса «стыковки» молекулы органического соединения (например, потенциального лекарства) в полость «биологической мишени» (обычно белка).

Генетический алгоритм также очень часто используют для отбора дескрипторов и поиска оптимальных значений параметров методов машинного обучения при построении моделей для прогнозирования свойств химических веществ. Мы также часто используем генетический алгоритм при построении карт пространств химических соединений и реакций.

Но для решения непосредственно задачи планирования синтеза генетический алгоритм обычно не используется. Судя по всему, для этой задачи более эффективны различные модификации метода Монте Карло. Что касается ближайших десяти лет, то я ожидаю появления более эффективных в вычислительном плане методов стохастической оптимизации.

Также в последние годы в области машинного обучения наблюдается заметный тренд на развитие техник обучения без учителя (unsupervised learning) — направления весьма привлекательного в силу того, что себестоимость разметки массивов при участии людей остаётся примерно постоянной величиной, а вычислительные мощности постоянно растут и дешевеют. Появление автоэнкодеров открыло дорогу появлению техник эмбеддинга (embedding), работы Йошуа Беньо и Томаса Миколова совершили революцию в области обработки нейронными сетями естественного языка за счёт создания семантических векторных пространств (технологии word2vec, GloVe и т.п.). Применение этого подхода представляется весьма перспективным и в области биоинформатики — последовательности нуклеотидов ДНК, эпигеном, транскриптом — весьма напонимают по своей структуре тексты. Есть ли успехи в применении этих технологий в биоинформатике? Связываете ли вы с ними надежды на заметный прогресс в области анализа биологических данных?

Про биоинформатику ничего не скажу, так как работаю в области хемоинформатики, а это не одно и то же. Что касается применения алгоритмов обработки текстов с помощью рекуррентных нейронных сетей типа LSTM, приводящих к созданию семантических векторных пространств, то они в хемоинформатике очень интенсивно используются. Более того, они для хемоинформатики даже лучше подходят, чем для биоинформатики.

Дело в том, что химическую структуру тоже легко записать в виде строки – для этой цели используют кодировку SMILES. В этом случае формируемое латентное пространство очень хорошо подходит для представления выборок химических соединений для их использования для построения моделей «структура-свойство». Более того, при запуске обученных таким образом рекуррентных нейронных сетей в режиме генерации формируются структуры новых химических соединений. Это позволяет, например, решать задачу дизайна молекул новых лекарственных препаратов.

Что касается автоэнкодеров, то еще в 2011 г. мы разработали на их основе и опубликовали новый метод осуществления виртуального скрининга библиотек (баз данных) химических соединений с целью поиска перспективных молекул для разработки новых лекарственных препаратов.

Что касается методов обучения без учителя (unsupervised learning), то в хемоинформатике они интенсивно используются уже более 30 лет. В 80-ых годах и начале 90-ых наибольшей популярностью пользовался классический (разработанный еще в 30-ых годах прошлого века!) линейный метод главных компонент (PCA), начиная с середины 90-ых и до конца 2000-ых несомненным лидером по популярности в области хемоинформатики были само-организующиеся нейронные сети Кохонена, тогда как в последние годы все большую популярность в хемоинформатике получает построенный на базе Байесовского обучения вероятностный аналог сетей Кохонена – генеративные топографические отображения (GTM – Generative Topographic Mapping). Варианты последнего метода очень хорошо подходят для работы с большими базами химических объектов, в том числе реакций органического синтеза. Из других методов обучения без учителя для решения разных задач в области хемоинформатики мы также используем одноклассовый вариант машины опорных векторов (1-SVM), а также особый класс «основанных на энергии» нейронных сетей с симметричными связями, таких как сети Хопфилда и ограниченная машина Больцмана (RBM – Restricted Boltzmann Machine).

Каково видится будущее использования ИИ в синтетической химии? Как быстро ИИ отберет работу у химиков?

Я вижу в будущем несколько направлений использования ИИ в синтетической химии, которые частично реализуются уже и в настоящее время. Например, методы ИИ для обработки текстов и распознавания изображений уже сейчас активно используются для извлечения из литературы и других источников информации о методах синтеза химических веществ, об их свойствах и реакционной способности. Это уже сейчас позволяет существенно сократить затраты по найму большого количества квалифицированных химиков (обычно низкооплачиваемых из стран «третьего мира»), которые извлекают из гигантского объема опубликованной литературы информацию для пополнения баз данных.

При таком «ручном» способе пополнения значительная часть потенциально полезной информации оказывается «потерянной». Методы ИИ также начинают применяться для автоматической обработки и анализа уже собранной в базах данных информации, поиска ошибок, их исправления, а также автоматического пополнения отсутствующих сведений, что позволяет значительно повысить ценность такой информации для химиков-синтетиков.

Следует отметить, что в этом направлении лидирующие позиции занимает лаборатория хемоинформатики из Казанского федерального университета. Химики-синтетику уже сейчас начинают использоваться в своей работе в качестве рабочих журналов «электронные записные книжки» (electronic notebooks), которые в будущем будут насыщены средствами ИИ и станут основные средством сбора химической информации.

В будущем ИИ возьмет на себя функцию регулярного просмотра и анализа огромного объема публикуемой литературы по химическому синтезу и свойствам химических веществ, что в настоящее время занимает значительное время у всех химиков и с чем они уже плохо справляются. В будущем появятся у химиков появятся «интеллектуальные помощники», которые смогут ответить на любые возникающие в работе вопросы, например, как оптимальным образом синтезировать химические вещества, какие вещества вообще надо синтезировать для заданной цели. Уже сейчас происходит интеграция средств ИИ из областей синтетической химии, фармакологии, биоинформатики, науки о материалах, а также робототехники. Это приведет в будущем к тому, ИИ будет не только планировать, но и проводить рутинный химический синтез, что значительно повысит эффективность разработки новых лекарственных препаратов и новых материалов. Думаю, что немного в более отдаленном будущем ИИ станет основным средством в планировании и проведении научных исследований в области химии. Современное развитие хемоинформатики направлено именно на это.

Сейчас многие, включая рад выдающихся ученых, видят большую опасность в широком внедрении ИИ, который может отнять рабочие места у людей и, возможно, даже сделают существования человечества ненужным. Все сразу вспоминают при этом фильм «Терминатор». Такая опасность, конечно же существует, но подобные опасности возникали и при внедрении машин и информационных технологий. Думаю, что развитие ИИ приведет в большей степени к появлению дополнительных специальностей и рабочих мест, чем к ликвидации старых. В области синтетической химии ИИ избавит людей от рутинной работы, занимающей большую часть времени, и сделает работу химиков значительно более творческой и продуктивной. ИИ скорее будет помогать в развитии и эффективном использовании возможностей человека, чем будет представлять для него угрозу.

Вопросы задавали Миша Батин и Сережа Марков.