Немного о нанозимах и их применении
Благодаря высокой каталитической активности и специфичности к субстрату природные ферменты широко используются в промышленности, медицине, биологии и т.д. Несмотря на перспективность, они часто страдают от внутренних недостатков, таких как высокая стоимость, низкая эксплуатационная стабильность и трудности с утилизацией. Чтобы преодолеть эти недостатки, ученые долгое время занимались исследованием искусственных имитаторов ферментов. С момента открытия ферромагнитных наночастиц с присущей пероксидазоподобной активностью хрена в 2007 году в течение следующего десятилетия постоянно появлялось большое количество исследований по нанозимам. Ниже приведена схема катализа с использованием оксида железа два на графеновой подложке.
Нанозимы - это один из видов наноматериалов, обладающих ферментативно-каталитическими свойствами. По сравнению с природными ферментами нанозимы обладают такими преимуществами, как низкая стоимость, высокая стабильность и долговечность, которые широко используются в промышленности, медицине и биологии. Глубокое понимание возможных каталитических механизмов будет способствовать разработке новых и наноматериалы с активностью, имитирующей ферменты.
Ближе к сути проекта
На данный момент активно разрабатываются и исследуются в основном нанозимы воспроизводящие свойства пероксидазы, каталазы и оксидазы. Например, годом ранее в университете ИТМО в международном научно центре SCAMT был создан открытый веб-ресурс DiZyme.
Используя данный ресурс ученые со всего мира могут получить предсказание для миметиков пероксидазы, каталазы, и оксидазы.
Но что если хочется предсказывать не только известные активности, а открывать частицы с новыми каталитическими активностями.
Цель моего проекта не только научиться предсказывать активности редких нанозимов, но и открывать новые материалы на основание всего одного опыта.
Откуда брать данные
Для формирование датасета будем анализировать уже имеющиеся данные из статей.
К сожалению редкими свойствами нанозимов сегодня мало кто интересуется поэтому статей в данной области мало. К тому же не существует определенного макета таких работ и каждый ученый сам выбирает какие свойства будут исследованы а какие нет. Ряд статей подобной тематики просто демонстрируют технологию синтеза и качественную реакцию для доказательства наличия каталитической активности у синтезированного нанозима, без предоставления каких либо численных данных.
Гугл сколар на запрос "Редкие свойства нанозимов" выдает более 1000 статей из которых в результате краткого просмотра было отобрано 7. В этих статьях описывались проявления редких каталитических активностей. Например миметики уреазы, азотредуктазы и деидрогеназы. Так же в датасет войдут примерно 1600 строк данных с сайта DiZyme и наноматериалы каталитические свойства которых еще не изучены.
К слову о данных. Ключевыми для этого проекта являются следующие характеристики:
Константа скорости реакции
Константа Михаэлиса
Геометрические размеры частицы
Площадь поверхности,
Электроотрицательность наночастицы
Окислительно-восстановительный потенциал
Константа скорости реакции и константа Михаэлиса необходимы для характеризации ферментативной активности полученной наночастицы. Они показывают ее эффективность как мимика естественного энзима. Остальные параметры характеризуют саму частицу. В ряде статей доказывается что размер наночастицы напрямую связан с ее каталитической активностью.
Например на данном графике видно что максимальная ферментативная активность для оксида железа 4 достигается при размере от 1 до 10 нм.
Так же следует отметить, что немаловажными параметрами являются условия анализа каталитической активности. При каком pH и при какой температуре измеряли активность.
Что делать с данными?
Для наших данных достаточно хранения в формате CSV.
Как было сказано выше каждый ученый сам выбирает какие параметры он будет описывать, поэтому в данных будут пропуски.
Существует несколько способов заполнения пропусков в базах данных, рассмотрим их по порядку. Сразу отбросим заполнение константой так как этот способ может внести системную ошибку в данные. Количественные данные можно заполнить средним арифметическим или медианой. Но у этого подхода тоже есть ряд недостатков. Во-первых, когда в данных появляется большое количество одинаковых близких к среднему значений, мы снижаем ценную вариативность в данных. Кроме того, такое заполнение пропусков может быть некорректно. Чтобы уменьшить ошибку можно заполнить пропуски внутригрупповыми значениями. Мы разбиваем наш датасет на категории и вычисляем медианну уже внутри этих категорий. Для разбиения на категории выберем наиболее коррелирующие между собой строки базы данных. Таким образом мы сможем заполнить пропуска данными которые не будут создавать системные ошибки.
Можно использовать метод работающий по схожему принципу – K-Nearest Neighbors. Данный метод основан на присвоении, который является наиболее распространённым среди k соседей данного элемента, классы которых уже известны. Нас больше интересует применение данного метода для регрессии. В таком случае объекту будет присвоено среднее значение по k ближайшим к нему объектам, значения которых уже известны.
Используя данные методы мы можем заполнить недостающие данные. Четких критериев наличия данных нет, однако чем больше данных, тем выше точность, если их 50% это будет не точнее чем гадание на кофейной гуще.
И что дальше?
На этом этапе мы будем создавать и обучать нашу модель использовать будем алгоритм на основе неполных автоэнкодеров со скрытым пространством.
Автоэнкодеры являются искусственными нейронными сетями, которые используют подход обучения без учителя. Автоэнкодер представляет из себя две нейронные сети: кодирующую и декодирующую.
Входные данные сравниваются с выходными, и, таким образом, после многочисленных итераций значение функции ошибки автоэнкодера достигает своего оптимального значения, а это означает, что восстановленные входные данные могут максимально приближать исходные.
Визуализировать работу автоэнкодера можно с помощью метода t-SNE или t-distributed stochastic neighbor embedding. Работу этого метода можно разделить на три этапа
На первом этапе алгоритм преобразует многомерную евклидову дистанцию между точками в условные вероятности, отражающие сходство точек. Такие измерения проделываются для каждой точки с применением некоторого масштабирования для учета различий в плотности различных секций. Близлежащие точки считаются похожими, в то время как удаленные считаются непохожими. Результатом вычислений будет матрица «Сходства» содержащую условные вероятности.
На втором этапе точки случайно отображаются в более низкоразмерном пространстве и алгоритм заново рассчитывает условные вероятности заполняя новую матрицу «Сходства». Эта матрица будет сильно отличаться от исходной.
На третьем этапе задачей алгоритма будет попытка создания матрицы наиболее похожей на исходную, используя итерационный подход. С каждой итерацией точки перемещаются к своим ближайшим соседям из исходного многомерного пространства и удаляются от отдаленных.
На изображении ниже мы можем наблюдать визуализацию работы данного алгоритма в зависимости от параметра переплексии, который описывает ожидаемую плотность вокруг каждой точки.
После создания и обучения модели последует длительный этап валидации модели. Нанозимы предсказанные моделью будут синтезированы и проверены на соответствие предсказанным данным. Это позволит отладить модель и пополнить датасет новыми данными.
Что получится в конце?
В конце будет выпущена научная статья и возможно будет создан ресурс аналогичный DiZyme. Мы сможем предсказывать системы с редкими и полезными свойствами. На данный момент у нас очень ограниченное представление о принципах которые позволяют наночастицам обладать каталитической активностью ферментов. Поэтому использование результатов предсказания позволит уменьшить количество времени затрачиваемого на поиск полезных нанозимов.