Pull to refresh

Клетка и организм — рекуррентные нейросети?

Reading time18 min
Views7.2K

Исходно нейросети были введены в практику как попытка смоделировать для решения прикладных задач работу нейронов в нервной системе животных. По всей видимости аналогичные алгоритмы распространяются "вглубь" клеток и реализованы с помощью клеточной машинерии даже внутри самых простых бактерий, являясь основой любой жизни. Основная цель данной статьи - показать возможность (на мой взгляд абсолютно естественного) описания бактериальной и эукариотической клеток, а также многоклеточных организмов в виде рекуррентных нейросетей (или, выражаясь иначе, в виде химических компьютеров на нейросетевой архитектуре).

Итак, нам потребуется определить что в клетке и организмах выполняет функцию нейронов, как закодирована матрица весов, как устроена функция, переводящая систему от временного шага t-1 к шагу t, а также каким образом происходит обучение. И далее обсудим что из этого следует.

Описание предлагаемой модели

С целью упрощения, пока не обозначено иное, речь идет о прокариотической (бактериальной) клетке как о наиболее простом случае, где клетка имеет только одно сравнительно гомогенное физическое внутреннее пространство, ограниченное мембраной.

В предлагаемой модели нейроны в клетке существуют распределенным образом и кодируются концентрациями соответствующих им веществ во всех их возможных формах/состояниях. В соответствии с этим для упрощения термин “вещество” далее будем использовать в максимально широком смысле, подразумевая не только варианты веществ с химическими/ковалентными модификациями, но и также разные электрические заряды, конформации, образованные комплексы (например, с лигандами, ДНК, РНК, белками и т.д.), разные локализации (как минимум нахождение в мембране, либо в цитоплазме клетки) и иные параметры, влияющие на взаимодействие. Более глубокого рассмотрения может заслуживать вопрос о рассмотрении в качестве таких “веществ-нейронов" квантов и полей.

Например, свернувшийся (завершивший процесс фолдинга) и не свернувшийся белки представляют собой совершенно разные состояния, хотя в классическом значении это может быть один и тот же белок.

Ген как участок ДНК, даже если он существует в  этой клетке только в одном экземпляре, также может находиться во многих состояниях и соответствует многим нейронам. Их перечень будет включать в себя произведение достаточно большого количества параметров: например, прикреплены ли к ДНК на тех или иных сайтах факторы транскрипции, метилирована ли данная “буква” в ДНК, находится ли ДНК в форме двойной спирали или одинарной, упакована ли в гистоны или распакована, метилированы ли гистоны и так далее. Т.е. ген с прикреплённых фактором транскрипции на данном участке (точнее концентрация этого комплекса) представляют собой отдельный нейрон.

Схематичное изображение набора нейронов, связанных с условным геном А.
Схематичное изображение набора нейронов, связанных с условным геном А.

В частности для условного гена А на схеме выше нейронами являются только конкретные состояния и варианты ДНК, РНК и белка, представленные на третьем уровне дерева.

Для упрощения будем считать несущественным фактором неравномерность распределения концентраций веществ в клетке. За рамками данного допущения модель по-прежнему останется релевантной, т.к. клетка может быть поделена на необходимое количество сегментов, внутри которых концентрации могут считаться равномерными. Тогда в соответствии с этим каждому веществу вместо одного нейрона может соответствовать количество нейронов, равное количеству таких сегментов.

Пронумеруем все возможные вещества в клетке. Значение нейрона h_{i,t}на временной итерации t равно концентрации соответствующего ему вещества на данный момент.

Таким образом функцию нейрона выполняет концентрация любого вещества (в широком смысле), потенциально присутствующего в клетке (в особенности если его присутствие физиологически естественно), в то время как логика взаимосвязей и формирование весов связей между нейронами в эволюции обеспечиваются эволюцией клеточной машинерии (в первую очередь белков, ДНК и РНК).

Соответствие определению нейросети для бактериальных клеток

Для простоты ниже дано описание дискретной модели. При \Delta t\to 0уравнения могут быть переведены в дифференциальную форму и описаны как непрерывная рекуррентная нейросеть (continuous time recurrent neural network, CTRNN).

Мы исходим из того, что рекуррентная нейросеть задается такой функцией f_w что вектор состояния системы на текущей временной итерации

h_t= f_w(h_{t-1},x_t) \qquad \qquad (1)

где:


h_{t-1}, h_t- векторы состояний системы на временных итерациях t и t-1;


x_t- вектор входящих параметров на шаге t;

w - вектор весов системы.

Функция f_w зависит от вектора весов w и не зависит от состояния системы h.

В соответствии с указанным выше, значение вектора нейронов h_t на временном шаге t равно набору концентраций для каждого вещества h_{i,t} на данный момент.

Входной вектор x_t выражает влияние на описываемую систему внешней среды при переходе от временной итерации t-1 к временной итерации t через изменение концентраций, возникшее не в результате взаимодействия нейронов внутри клетки.

Рассмотрим возможные варианты входов:

  • поступление вещества в клетку из внешней среды (например, через пору или диффузией);

  • переход трансмембранного белка-рецептора или белка-рецептора, находящегося в клеточном растворе из одного состояния в другое под влиянием внешних факторов: электрического и электромагнитного полей, улавливания квантов (при зрении или фотосинтезе), гравитации, для мембранных белков - взаимодействие с веществами во внешней среде.

Таким образом внешние воздействия, оказываемые на клетку, выражаются в изменении количества веществ и на уровне изменения значений нейронов могут быть естественным образом описаны вектором изменения концентраций веществ x_t, который прибавляется к вектору состояний системы.

Для описания функции f_w, переводящей состояние клетки h_{t-1} в состояние h_t достаточно соотношения, позволяющего вычислить состояние конкретного нейрона h_{i,t}на временной итерации t.

Концентрация вещества h_i на временном шаге t определяется его концентрацией на предыдущем шаге h_{i,t-1}, внутриклеточным притоком вещества в результате моно- и бимолекулярных реакций h_{i \:IN,t-1}параметром входящего вектора x_{i,t} внутриклеточным оттоком в результате моно и бимолекулярных реакций h_{i \:OUT,t-1} и параметром исходящего вектора y_{i,t}(пока рассмотрим его по аналогии с x_{i,t}, а в следующей главе обсудим чуть подробнее).

h_{i,t}=h_{i,t-1}+h_{i\:IN,t-1}*\Delta t+x_{i,t}-h_{i\:OUT,t-1}*\Delta t-y_{i,t} \qquad (2)

где:

В общем случае закон действующих масс и формула расчета состояния на временном шаге t должны работать и для взаимодействия трансмембранных структур со структурами в цитоплазме и между трансмембранными структурами, т.к. вероятность встречи двух потенциально реагирующих молекул по-прежнему пропорциональна количеству молекул (даже если молекулы собраны на мембране).

Несмотря на свою редкость, отдельного рассмотрения могут заслуживать тримолекулярные реакции. Согласно закону действующих масс, возможно сохраняя соответствие требованиям, дополнить функцию f_w слагаемым, учитывающим данный класс реакций.

Таким образом мы получили функцию (2), описывающую переход состояния системы изh_{t-1} в состояние h_tи соответствущую определению нейросети (1). Роль вектора w выполняет набор констант скоростей химических реакций.

Выходной вектор, адаптационная функция и эволюция

Исходящие от клетки воздействия на окружающую среду могут быть представлены физическими воздействиями, такими как передача энергии в виде механической работы, испускание квантов или генерация электромагнитных полей (флюоресцирующие бактерии, светлячки, электрические скаты, мембраны нейронов), либо передачи тепловой энергии. Также возможно непосредственное выделение химических веществ. С точки системы самой клетки, любая передача энергии, квантов или вещества может быть выражена в виде исходящего вектора параметров y_{t}, отражающего изменения значения нейронов h между временными итерациями t-1 и t.

Клетка в каждый момент времени производит два ответа на окружающую реальность: внешний ответ в виде исходящих параметров, описанный выше, а также внутренний ответ в виде изменения своих внутренних состояний h_{t} не за счет передачи энергии или материи вовне.

Рассмотрим многомерное пространство H потенциально возможных сочетаний состояний каждого нейрона h_{i} клетки. В рамках модели, изменение внутреннего состояния клетки во времени представляет собой перемещение точки в данном многомерном пространстве. Часть этого пространства при нахождении в нем позволяет клетке сохранять гомеостаз и таким образом продолжать свою жизнедеятельность. При переходе границы допустимого пространства состояний, сохранение гомеостаза становится невозможным и клетка погибает. 

Поддержание гомеостаза зависит не только от внутреннего состояния клетки, но и от состояния окружающей среды. Например, при одном давлении окружающей среды мембрана клетки лопается, и клетка гибнет, при другом целостность мембраны сохраняется, и клетка продолжает свою жизнедеятельность. 

Таким образом, обобщенно жизнь клетки можно рассматривать как движение точки в пространстве вариантов клетки в произведении с пространством вариантов S окружающей среды, обобщенном пространстве H*S. При этом клетка не обладает полной информацией о пространстве вариантов окружающей ее реальности, которая к тому же сама постоянно меняется.

При определенных сочетаниях состояний нейронов клетки h_i, и входящего вектора параметров x, клетка инициирует деление, что приводит к образованию двух клеток. Процессы репликации устроены таким образом, что копирование ДНК, как правило, происходит не точно: ДНК полимеразы и другие ферменты, принимающие участие в копировании, делают “ошибки”. Это обеспечивает появление клеток со слегка измененной последовательностью ДНК. Изменение значимых участков последовательности ДНК (а для кодирующих участков также РНК и/или белка) приводит к изменению набора нейронов в клетке. Например, последовательность белка изменилась, и новый белок сильнее или слабее связывает свой лиганд. Таким образом, вместе с “номинальным” изменением нейрона, меняется и вектор весов между нейронами w. Некоторые “ошибки” копирования (например, делеции и дупликации) изменяют также и количество нейронов в клетке.

При изменении любого значимого участка ДНК в ходе деления возникают две клетки с разным набором нейронов и, соответственно, разными векторами весов w. Клетка с новой нейросетевой архитектурой “движется” в измененном пространстве сочетаний возможных “внутренних” состояний и состояний окружающей среды H'*S' и имеет другие границы зоны сохранения гомеостаза.

Способность оставаться в рамках гомеостаза для каждой такой архитектуры в меняющейся окружающей среде (внешних обстоятельствах) может быть выражена как адаптационная функция, определяющая вероятность выживания нейросети с данным набором весов w и данной архитектурой. В ходе эволюции нейросеть все более обретает способность становиться  “вычислительно гибкой внутри себя”, обеспечивая адаптацию к все более широкому спектру параметров окружающей среды. С другой стороны, у организмов развиваются более совершенные инструменты изменения окружающей среды под себя, включая “изменение” этой среды путем перемещения в пространстве (в этом смысле можно сказать, состояние окружающей среды относительно и зависит от системы отсчета, т.е. клетки).

Мы ожидаемо видим, что обучение нейросети (подбор вектора параметров w) происходит в эволюции при помощи генетического алгоритма. Это хорошо известный в области AI класс алгоритмов нейроэволюции. При этом в структуре связей между нейронами под действием отбора сохраняется именно та информация об окружающей среде, которая является полезной для выживания и размножения.

Естественный отбор также должен способствовать выработке и закреплению механизмов памяти, обеспечивающих сохранение информации о свойствах среды обитания в пределах одного жизненного цикла.

Сказанное выше может быть экстраполировано на эукариотические клетки и многоклеточные организмы, о которых речь пойдет далее.

Эукариотическая клетка и многоклеточные организмы

Рассмотрим организм H, состоящий из двух клеток h и h'. С учетом большого количества возможных вариантов межклеточных контактов, распространенности двойных мембран и т.д. речь может также идти о клетке и межклеточном пространстве между двумя клетками или о клетке и находящейся внутри нее мембранной органелле. Разобрав ситуацию для двух сопряженных пространств, разделенных мембраной, мы в дальнейшем сможем обобщить логику для любого количества таких пространств.

Согласно показанному выше:

где x_{i,t} и y_{i,t} могут быть представлены в виде:

В соотношениях (6) и (7): 

transin_{i, t} - часть x_{i, t} , относящаяся к входу через границу с h', т.е. изменения, обусловленные взаимодействием с клеткой h', а x'_{i, t} - изменения вследствие взаимодействия с внешней средой;

transout_{i, t} - часть y_{i, t}, относящаяся к выходу через границу с h', т.е. изменения, обусловленные взаимодействием с клеткой h', а y'_{i, t} - изменения вследствие взаимодействия с внешней средой.

Тогда функция состояния совокупной системы Hможет быть представлена для нейронов, относящихся к подсистеме h (симметричным образом можно получить представление для нейронов H, относящихся к h') как:

В соответствии с химической кинетикой поток Diff \: h_{i,t} вещества вследствие диффузии и облегченной диффузии определяется концентрациями вещеста h_{i,t}и h'_{i,t}по обе стороны мембраны, площадью контакта клеток S, а в случае ионов также разностью потенциалов \Delta \phi между водными фазами.

Разность потенциалов  может быть рассчитана через h_{i,t-1}и h'_{i,t-1}. В зависимости от организма и типа клеток площадь  контакта между клетками S может долгое время оставаться постоянной, однако всё же является функцией от h_{t-1} и h'_{t-1}, а также зависит от давления внешней среды и приложенных сил (данные параметры мы также можем рассматривать как часть вектора входящих воздействий x_t в более общем виде).

Количество вещества h_i, перенесенного активным транспортом может быть определено через скорость взаимодействия вещества с транспортерами, соединяющими клетки, по закону действующих масс:

Общее состояние системы H из двух клеток h и h'на временном шаге t может быть представлено в соответствии с определением нейросети (1).

Частным случаем рассмотренной системы может быть ситуация, когда клетка h'находится внутри h, т.е. клетка, содержащая мембранную органеллу. 

Представленный подход может быть обобщен на любую совокупность клеток с любым уровнем вложенности, а также на межклеточные пространства. Таким образом, эукариотические клетки и многоклеточные организмы в предлагаемой модели также могут быть представлены как нейросети.

Итак, мы пришли к выводу, что бактериальная клетка, эукариотическая клетка и многоклеточный организм могут быть представлены как компьютеры, работающие на нейросетевой архитектуре. Рассмотрим несколько любопытных следствий, а далее перейдём к общему обсуждению.

О теплокровности в контексте нейросетевой архитектуры

Согласно законам кинетики для различных реакций при изменении температуры их скорость меняется по-разному, притом расхождение между скоростями различых реакций будет нелинейным. Это означает, что элементы сети, оптимально работающие при одной температуре, при другой могут давать неудовлетворительные результаты. Это проще всего представить инженерам, работающим с нейросетями: достаточно представить, что есть идеально обученная для решения тех или иных задач нейросеть, но после этого в определённых условиях параметры вектора весов w начинают нелинейным образом "разъезжаться" в разные стороны.

Как следствие поддержание постоянной температуры должно существенно ускорять эволюцию, т.к. увеличивает количество степеней свободы при поиске новых архитектурных решений. Часть тех наборов весов и архитектур, которые предлагают оптимальное вычислительное решение для текущих эволюционных задач при постоянной температуре, будут отбраковываться эволюцией из-за “расхождения” вычислений при более широком спектре температур. Стабилизация температуры позволяет выбирать из большего количества оптимальных архитектур и быстрее решать эволюционные задачи. Вместо это без теплокровности живые организмы либо вынуждены оптимизировать архитектуру своих связей под возможные большие перепады температуры вместо поиска оптимального решения вне данного ограничения, либо ограничивать ареал обитания. Возникновение теплокровности позволило “носить температуру с собой”. Данная гипотеза может быть проверена через оценку скорости эволюции теплокровных животных: согласно предложенной гипотезе адаптация у них должна происходить существенно быстрее.

Не менее интересен вопрос о температурных оптимумах функционирования молекулярных подсистем иммунной системы. Очевидно, что выход организма из своего температурного оптимума нежелателен и может использоваться только при крайней необходимости. Как мы видим, на практике это действительно происходит нечасто, а поддержание температуры в организме контролируется как правило с точностью до десятых долей градуса. В свете последних событий любопытно, что единственные известные млекопитающие активно меняющие температуру тела в широких пределах вне спячки - летучие мыши. 

Повышение (а также и понижение) температуры с одной стороны может выводить из оптимума возбудителя инфекции. В то же самое время повышение температуры ускоряет протекание химических реакций в организме, ускоряя вычисления. Поэтому исходя из общих соображений хозяин должен выигрывать от роста температуры, однако нас интересует вопрос о соотношении полезных (у каждого для решения своих задач) вычислительных мощностей хозяина и паразита, где польза определяется архитектурой связей (задаваемой w) и ее изменением при изменении температуры. Поэтому наибольшую пользу в борьбе с инфекцией рост температуры может принести в том случае если нейросетевая архитектура молекулярных подсистем иммунной системы (направленных на борьбу с опасными с точки зрения данного организма инфекциями) оптимизирована для работы в более высоком диапазоне температур. Тогда ростом температуры организм мог бы решать сразу 3 задачи: выводить паразита из оптимума, вводить специальные молекулярные подсистемы своего иммунитета в оптимум и одновременно ускорять сами полезные для иммунного ответа вычисления.

Также интересными для исследования под этим углом становятся вопросы о существовании дополнительных температурных оптимумов, отвечающих за высокие физические нагрузки (сопровождаются изменением температуры) и процесс гибернации (зимней спячки) организмов.

Оценка количества нейронов в нейросети человека

Согласно рассматриваемой модели нервная система является лишь небольшой частью нейросети. Постараемся примерно оценить общее количество нейронов в нейросети человека.

Существование в эукариотических клетках мембранных органелл создает дополнительные “вычислительные спейсы”, вычисления в которых связаны с вычислениями в основном “спейсе” только через входы/выходы и, таким образом, фактически увеличивают количество нейронов и вычислительную мощность притомженаборегенов, что может давать эволюционные преимущества.

Помимо мембранных органелл альтернативный сплайсинг, регуляция упаковки ДНК, интерферирующие РНК и другие механизмы эукариотических клеток по-видимому также были закреплены естественным отбором и дают эволюционные преимущества в связи с тем, что позволяют увеличить количество нейронов в сети.

Достаточно точная оценка согласно предложенной модели количества нейронов в организме человека заслуживает отдельного исследования, однако в рамках данной статьи можно привести грубую оценку снизу.

Для этого необходимо просуммировать:

  • Количество генов в их различных состояниях;

  • Количество возможных РНК-транскриптов с учетом альтернативного сплайсинга;

  • Количество возможных белков с возможными вариантами модификаций. В базе данных Uniprot на май 2021 содержатся данные о более чем 100 000 модификаций для человека. Некоторые белки могут иметь множество сайтов модификации. Для одного белка уже при двух десятках сайтов модификаций количество всех возможных сочетаний составит 2^{20}\approx10^6. В связи с этим для теоретического понимания одним из ключевых вопросов для оценки количества нейронов является вопрос о том какие сочетания модификаций могут в действительности присутствовать в цитоплазме клетке и мембранных органеллах. Для практических же целей даже при большом количестве сочетаний модификации могут быть эффективно кластеризованы.

  • Количество возможных комплексов между разными видами молекул;

  • Количество возможных метаболитов.

Также нужно просуммировать аналогичный набор параметров для каждой из мембранных органелл. Только митохондрий в клетке человека в среднем около 2000, однако набор нейронов в каждой из мембранных органелл может существенно отличаться (вероятнее всего в меньшую сторону) от набора в основном пространстве клеток.

По грубой максимально консервативной оценке общее количество нейронов одной клетки составляет не менее 2 млн. С учетом примерно 30 триллионов клеток в человеческом организме, количество нейронов человека может быть оценено не менее чем в 10^{18}-10^{19}. Существование большого количества допустимых сочетаний модификаций белков и ДНК может добавить к этой оценке до 5 и более порядков. Причем в отличие от архитектуры искусственных нейросетей вычисления во всех клетках и органеллах происходят параллельно. Для сравнения на момент написания этого текста самая мощная из известных искусственных нейросетей Wu Dao 2.0 содержит около 1,75*10^{12} нейронов.

Оценка выполнена без учета количества эндосимбионтов, однако учитывая, что большая часть эндосимбиотических клеток являются прокариотическими (с точки зрения оценки вычислительной мощности в первую очередь важно отсутствие мембранных органелл, радикально увеличивающих количество нейронов), эндосимбионты едва ли влияют на порядок оценки.

В связи с таким впечатляющим количеством нейронов крайне интересным является вопрос о том какая их часть используется человеком в “несоматическом” мышлении, т.е. в мышлении и памяти, направленных на решение “внешних” задач во взаимодействии с другими людьми и объектами, что в бытовом смысле мы и привыкли называть интеллектом. Иными словами интересно насколько наш интеллект использует для памяти и расчетов нейроны за пределами нервной системы. В предыдущей парадигме мы представляли себе что чтобы сохранить или воспроизвести личность человека при запредельно высоком развитии технологий достаточно взять его мозг. Теперь, вероятно, это уже под вопросом. Нервная система в рамках предложенной модели представляет собой лишь небольшую часть нейросети человека, а каждый “электрический нейрон” как клетка содержит в себе миллионы других нейронов.

Применительно к практике нас не должно пугать впечатляюще большое количество нейронов, полученное при данной оценке: для практических целей они могут быть в нужной степени кластеризованы.

О предложенном взгляде и дальнейшие вопросы

Взгляд на клетки и организмы как на нейросети сводит вместе биологию (в особенности, разумеется, биоинформатику и системную биологию), химию, медицину, информатику и исследования искусственного интеллекта, а также поднимает некоторые философские вопросы. Исследования эволюции и наше понимание живых организмов в прикладных целях, возможно, могут быть более продуктивны при взгляде на организмы как на эволюционирующие матрицы весов и архитектуры нейросетей. Очевидно, что большая часть "веществ-нейронов" в клетке несут чисто регуляторно-вычислительную функцию: сами носители в регуляторном каскаде могут быть не важны, при этом они задают значения параметров в векторе весов (закодированных в константах скоростей реакций) и обеспечивают организму правильное распознавание ситуации и адекватный ответ, который в свою очередь обеспечивает сохранение гомеостаза.

Становится логичным и понятным разумное поведение некоторых (иногда даже одноклеточных) организмов, не обладающих нервной системой. Например, за счёт каких механизмов функционирует интеллект грибов, позволяющий им решать задачи по прохождению лабиринта и построению оптимальных структур транспортных сетей: их нейронные сети могли оптимизироваться в эволюции для решения данного класса задач на протяжении сотен миллионов лет.

Мне представлятся наиболее интересным поиск ответов на следующие дальнейшие вопросы в конткексте предлагаемой модели:

  • Функции (2) и (12), полученные выше, несмотря на то, что они позволили показать соответствие определению, кажутся очень нетипичными для рекуррентных нейросетей. Хотелось бы больше понять о их свойствах. Важно отметить, что поскольку значения нейронов закодированы в концентрациях, в системе также действует закон сохранения (вещества не исчезают).

  • Можно ли рассматривать как нейросеть совокупность двух и более организмов, не соединенных пространственно (особенно если они имеют общее происхождение, т.е. по сути являются развитием одной программы)? И, как следствие, можно ли рассматривать как единую нейросеть вид, более крупные таксоны и все живое?

  • В природе существуют нейросетевые архитектуры, оптимизированные генетическими алгоритмами для решения различных задач на протяжении очень долгого времени. Что из этого и как может быть использовано для решения прикладных задач и развития технологий искусственного интеллекта?

  • Как соотносятся количество нейронов и архитектура сети организма, принадлежащего определенному виду, со скоростью адаптации и эволюционным успехом вида?

  • Как архитектура связей в одном организме и общее количество нейронов каждого вида, рода и других таксонов соотносятся с различными моделями эволюционного успеха и способностью трансформировать среду обитания под себя?

  • Как связана электрическая активность нейронов нервной системы и обрабатываемая ими информация с "внутренними нейросетями" нейронов, глиальных и иных клеток и насколько эти нейросети используются в механизмах памяти и мышления? Насколько клетки за пределами нервной системы вовлечены в механизмы памяти и мышления?

Об основной практической задаче

Для меня основной практической задачей биоинформатики и системной биологии на сегодняшний день, безусловно, видится построение максимально точной карты регуляторной сети человека. Т.е. карты/модели, с помощью которой можно понять нарушения, происходящие в регуляторных каскадах у человека практически для любой болезни (и пути их исправления с наименьшими усилиями) или предсказать влияние на фенотип и здоровье практически любой мутации. Выражаясь языком предложенной в этой статье модели, для этого нам необходимо составить максимально полный и структурированный перечень всех нейронов (с учётом всех возможных тканей, типов клеток, состояний, условий и патологий), а также, насколько это возможно, реконструировать матрицу весов w, т.е. константы скоростей реакций. По сути это задача реверс-инжиниринга программно-аппаратного комплекса высочайшей сложности, однако нет сомнений, что она решаема, тем более даже небольшие продвижения на этом пути существенно упрощают поиск новых мишеней для лекарств и, собственно, их разработку. Если предложенный в этой статье взгляд на архитектуру клеточной регуляторной сети корректен, он может помочь посмотреть на задачу под более правильным углом и эффективнее структурировать собираемые данные.

В последние годы в связи с развитием системной биологии и биоинформатики появилось множество баз данных и инструментов для сбора и систематизации информации о внутриклеточных взаимодействиях и регуляторных сетях клетки. Однако есть несколько практических ограничений, отделяющих нас от построения достаточно полной карты взаимодействий:

  • Регуляторную функцию выполняют все классы веществ: ДНК, РНК, белки, метаболиты. Существующие базы данных, содержащие информацию о взаимодействиях, как правило, фокусируются лишь на небольшом сегменте возможных взаимодействий (например, белок-белковые взаимодействия, матаболомика или взаимодействие транскрипционных факторов с ДНК). Таким образом, данные фрагментированы и плохо сопоставимы между собой, отсутствуют инструменты для более обобщённой систематизации. Ситуация усугубляется тем, что наиболее качественные и хорошо анотированные базы взаимодействий являются коммерческими и по понятным причинам закрыты для широкой аудитории. То же касается и большого объёма качественных датасетов.

  • Большая часть данных о взаимодействиях носят неколичественный характер: как правило для белок-белковых и иных взаимодействий даже в коммерческих базах часто в лучшем случае мы найдём данные о наличии связи и её типе.

  • Вокруг общей цели построения полной единой карты взаимодействий не сфокусированы усилия достаточного количества исследователей. На текущий момент наибольшая часть получаемых экспериментальных данных о взаимодействиях и датасетов, которые могут использоваться для реконструкции регуляторных сетей, являются побочным продуктом других исследований. По этой причине даже доходящие до открытого доступа данные могут быть числе плохо/не полно аннотированными.

Примечательно, что сегодня именно искусственные нейросети дают надежду на построение достаточно полной карты/модели взаимодействий хоть в сколько-нибудь обозримом будущем даже на основе разрозненных и плохо аннотированных данных (это, конечно, не отменяет необходимости работы по решению описанных выше проблем). Именно по этой причине захотелось поделиться личным взглядом на клетки и организмы в первую очередь с жителями Хабра, среди которых много высокого класса специалистов в области AI.

Данная статья не претендует на полную строгость или на точность/формат научной статьи. Однако я буду рад обратной связи и конструктивной критике, которая поможет уточнить либо опровергнуть предлагаемый взгляд на вопрос. Также я и мои коллеги будем рады коллаборациям в решении описанной выше практической задачи (основательно занимаемся сами) и в поиске ответов на озвученные выше теоретические вопросы.

Я хотел бы поблагодарить Иннокентия Троицкого, передового практика в области применения искусственных нейросетей. Посмотреть на взаимосвязи в клетке под таким углом мне помогло взаимодействие с ним в ходе разрабатываемого нами проекта по расшифровке регуляторных сетей клетки с помощью развиваемых им технологий AI.

Александр Вайншток

Мой Telegram

Tags:
Hubs:
+7
Comments26

Articles

Change theme settings