Темный протеом, или Как микробелки прятались в геноме на виду у всех / Хабр

Расшифровав человеческий геном (им, кстати, был геном самого Джеймса Уотсона, одного из авторов модели двойной спирали ДНК), ученые недолго довольствовались результатом. Наука концентрировалась на больших генах, кодирующих крупные белки длиной в ~300 аминокислот, но обнаружилось, что такие гены занимают всего ~1–2% ДНК. Все остальное, по логике экономии объяснений, решено было считать «мусором» — junk DNA, накопившимся побочным продуктом эволюции.

Еще до открытия структуры ДНК Уотсон и Крик наблюдали случаи, когда темный протеом (или «темная материя генома», по выражению журналиста New Scientist) вел себя далеко не пассивно. А через полвека обнаружилось: то, что считали шумом и мусором, скрывает миллионы smORF (малых открытых рамок считывания), способных кодировать небольшие белковые соединения — микропротеины.

По разным оценкам, в человеческом геноме может существовать ~3 млн таких потенциальных микробелков. Было очень мало способов понять, какие из них действительно важны. Экспериментально подтверждено — лишь ~1 200. Функции известны и того меньше.

Из-за малого размера (обычно менее 150 аминокислот) изучение микробелков двигалось в темпе усталого ленивца. Их трудно обнаружить стандартными методами, оптимизированными для крупных протеинов. Многие smORF экспрессируются слабо, действуют в специфических тканях, быстро разрушаются и необычно кодируются — поэтому методы поиска «по подобию» не работают.

И все же недавно ситуация начала меняться. Исследователи Института Солка — группа Алана Сагателиана и коллег — разработали новый инструмент для фильтрации функциональных микропротеинов: платформу ShortStop.

Если вы устали от нейрослопа, то это как раз тот случай, когда алгоритмы решают задачу, с которой человек физически не справится. Новая платформа может заметно повлиять на генетику и медицину будущего — от переосмысления того, как в принципе устроен геном, до новых подходов к борьбе с онкологией, ожирением и старением.

Старая догма

Долгие годы в арсенале у биологов была простая схема, объясняющая, как работает наследственность: ДНК → РНК → белок → фенотип. Эту идею Фрэнсис Крик, в 1953 году вместе с Джимом Уотсором описавший модель ДНК, называл центральной догмой молекулярной биологии. В своей книге «Жизнь сама по себе» (1981) он формулировал ее примерно так: ДНК — это матрица, РНК переносит с нее информацию, рибосома по инструкции РНК собирает белки, белки определяют признаки организма.

«Фото 51» — рентгенограмма ДНК, полученная в 1952 году в лаборатории кристаллографа Розалинды Франклин. Именно ее данные сыграли ключевую роль в построении модели двойной спирали Уотсона и Крика. Сама Франклин не дожила до присуждения Нобелевской премии: умерла в возрасте 37 лет от рака яичников

Крик не был догматиком. Он подчеркивал, что использует термин скорее как риторический ярлык. Но на практике его взгляды действительно стали догмой. В фундаментальном учебнике 1965 года «Молекулярная биология гена» Джим Уотсон проповедовал студентам: если хотите понять болезнь или признак — ищите, какой белок сломан и какая мутация за это отвечает.

Хрестоматийный пример — серповидноклеточная анемия. Изменение всего одного нуклеотида в гене β-глобина (GTG, валин вместо GAG, глутаминовая кислота) приводит к замене одной аминокислоты в гемоглобине. В результате белок получается дефектным: склонен к агрегации, деформирует эритроциты, придавая им форму серпа, повышает риск тромбоза и запускает целый каскад симптомов. Это очень выразительная иллюстрация старой догмы: точечная мутация меняет белок, а белок меняет физиологию. Только так, и никак иначе.

Впрочем, то, что все несколько сложнее, обнаружилось еще когда Уотсон и Крик были тинейджерами.

Кукуруза с транспозонами

1940-е годы. Экспериментальные кукурузные линии в лаборатории на Лонг-Айленде, штат Нью-Йорк. Цитогенетик Барбара Макклинток (Barbara McClintock) рассматривает под микроскопом клетки кукурузы — ее интересует поведение хромосом во время деления и то, как генетика связана с окраской зерен.

На первый взгляд все работает классически: цвет зерна определяется генами, гены передаются по наследству. Но некоторые початки выглядят странно: пигмент то появляется на отдельных зернах, то исчезает. Это то, что сегодня мы знаем под названием «мозаицизм» и что еще не объяснено наукой в 1940-е. Но Макклинток нащупывает правильный путь: подозревает, что дело тут не столько в самих генах, сколько в чем-то, что вмешивается в их работу. Прослеживая судьбу отдельных участков хромосом в микроскоп, она обнаруживает странную вещь — некоторые генетические элементы ведут себя нестабильно: скачут по геному, оказываясь рядом с разными генами.

Макклинток назвала такие участки ДНК «контролирующими элементами». Сегодня мы знаем их как транспозоны. Их перемещения могут включать или выключать гены, не изменяя структуру кодируемых белков. И это важно, потому что означает: наследственные признаки регулируются не только поломкой белка, но и изменениями самого генома. Забегая вперед, можно сказать, что не только ДНК определяет РНК, но и РНК регулирует ДНК: ДНК ↔ РНК.

Для середины XX века звучит еретически. Ген считается стабильным хранилищем инструкций, а не подвижной системой. Идея никак не вписывается в догму. Научное сообщество не принимает Макклинток: многие коллеги считают явление исключением для кукурузы (sic!), статьи почти не цитируются, а к началу 1950-х она фактически прекращает активно публиковаться по этой теме. Вклад ученой в генетику оценят лишь спустя десятки лет — она получит Нобелевскую премию по медицине в 1983 году.

Новая парадигма

Дальнейшая наука только докажет правоту Макклинток. За последние два десятилетия будет секвенирована ДНК сотен тысяч людей и десятков тысяч других видов. Выяснится, что подавляющее большинство значимых мутаций находятся за пределами 2% генома, кодирующих крупные белки.
Еще одно открытие — в РНК транскрибируется (переносится) более 70% ДНК, а вовсе не 2%. То есть РНК сама по себе играет активную биологическую роль — участвует в регуляции экспрессии генов, сплайсинге, инициации транскрипции и других процессах.
Третье наблюдение касается сложности организмов: многие простейшие существа (включая бактерий) имеют почти тот же набор базовых белков, что и люди. Однако мы гораздо сложнее.

Все это наводит на мысль: если наши двадцать тысяч больших белков выполняют необходимые для жизни функции, то остальная РНК, синтезируемая из «мусорной» ДНК, контролирует, когда, где и с помощью каких дополнительных регуляторов эти большие белки производятся. Меткое «то, что верно для бактериофага, верно и для слона» от лауреата Нобелевской премии биохимика Жака Моно уже не работает. Новая догма формулируется так:

ДНК ↔ РНК → Контроль → Белок → Фенотип

(При этом схема, как и положено схеме, немного упрощена: некоторые некодирующие РНК способны напрямую влиять на фенотип.)

Подобно тому как квантовая теория расширила ньютоновскую физику, новая биологическая модель не отменяет центральную догму, но показывает ее ограниченность в объяснении сложных организмов.

Концепт можно сравнить с набором Lego: белки — это ограниченное число деталей, а регуляторные РНК — инструкции по их сборке. Из одного и того же комплекта деталей можно построить простую или сложную конструкцию — все зависит от инструкции. Ошибка в ней чаще приводит к сбою, чем дефект самой детали. Организмы используют во многом схожие белки, но радикально отличаются тем, как они организованы и регулируются.

Сегодня ДНК/РНК-модель остается открытой и развивается стремительно: исследования регуляторных РНК и архитектуры генома публикуются каждую неделю. На переднем крае этой трансформации — микробелки.

Что такое микробелки

Это миниатюрные белки, длина которых обычно не превышает 100 или 150 аминокислот. Как мы уже упоминали, эти белки считываются с «малых открытых рамок считывания», или smORF. Они разбросаны по всему нашему геному: иногда прячутся внутри других генов, иногда — в той самой «мусорной» ДНК. А переносятся многие из них именно на регуляторную РНК (ранее считавшуюся некодирующей).

Насколько маленькими могут быть функциональные белки? Несколько конкретных примеров

У дрозофилы микробелки длиной всего 11–32 аминокислоты регулируют развитие дистальных сегментов лапки — тарзуса. Без этих крошечных пептидов нарушается работа транскрипционного фактора, и формирование конечностей идет неправильно.

В митохондриальном геноме человека обнаружены микропротеины длиной около 20–40 аминокислот, которые напрямую участвуют в регуляции метаболизма, апоптоза (клеточной смерти) и клеточного стресса.
В мышечной ткани человека и мышей работают микропептиды менее чем на 100 аминокислот, которые регулируют активность кальциевого насоса — то есть напрямую влияют на сокращение и расслабление мышц.
У кишечной палочки описан 49-аминокислотный белок, который помогает микробу выживать в присутствии антибиотиков, модулируя работу транспортного насоса.
В нервно-паралитических ядах пауков, скорпионов и моллюсков множество активных компонентов представляют собой короткие пептиды — иногда менее 100 аминокислот, — которые с высокой точностью блокируют ионные каналы нервных клеток.

Первые намеки на существование скрытого мира микробелков появились благодаря новым лабораторным методам. Одним из важнейших стал рибосомный профайлинг. Этот метод дает ученым карту всех молекул РНК, которые в данный момент активно считываются рибосомами. Фиксируя фрагменты считываемого кода, исследователи обнаружили, что многие smORF транслируются в белки. Далее удалось доказать их фактическое существование: в клетках нашли фрагменты, соответствующие последовательностям, предсказанным smORF.

Ноги на голове — зрелищный пример мутации у дрозофил, вызванной нарушением работы hox-генов, определяющих «карту тела»

Но для чего нужны микробелки? Как выяснилось, чуть менее чем для всего: они могут выступать «ручками тонкой настройки» для крупных белковых машин, работать как независимые сигнальные молекулы или критически важные компоненты в таких фундаментальных процессах, как выработка энергии. Микропротеины вовлечены во множество знакомых задач: участвуют в иммунном ответе, помогают бактериям адаптироваться к температурному стрессу, входят в состав ядов животных и влияют на сроки цветения растений. Ну и, соответственно, мутации в них могут приводить к резким изменениям фенотипа и болезням.

Исследования микропротеинов ведутся при помощи уже упомянутого рибосомного профайлинга, а также ряда других методов, включая CRISPR, когда микробелки «нокаутируют» с помощью ферментных «ножниц», наблюдая, как это изменяет поведение клетки. Однако такие подходы медленны, трудоемки и не всегда дают однозначный функциональный ответ.

Именно поэтому к делу все чаще подключают вычисления. Алгоритмы машинного обучения, такие как ShortStop, работают поверх профайлинга или CRISPR — они выделяют именно те smORF, которые вероятнее всего кодируют функциональные микробелки. Иными словами, нейросеть используется как фильтр больших данных.

Как работает ShortStop

Многие smORF возникают просто из того, что геном огромен и случайно генерирует короткие рамки считывания, не имеющие биологической функции. Чтобы решить эту проблему, исследователи разработали систему МО для классификации smORF по вероятности того, что они кодируют настоящий микробелок. ShortStop основана на простой идее: функциональные микробелки должны отличаться по своим биохимическим признакам от нефункциональных или случайных.

Для этого система сравнивает smORF с двумя классами:

SAM (Swiss-Prot Analog Microproteins) — последовательности, похожие по свойствам на уже хорошо изученные и аннотированные микробелки из базы Swiss-Prot.
PRISM (Physicochemically Resembling In Silico Microproteins) — искусственно созданные белковые последовательности, которые по длине и химическим свойствам похожи на микробелки, но имеют случайный порядок аминокислот. По сути, это псевдобелки, помогающие отличить настоящие белки от случайных продуктов трансляции.

Как это выглядит на практике?

Сначала исследователи получают список smORF — например, из данных рибосомного профайлинга. Каждый smORF переводится в аминокислотную последовательность — так система работает не с ДНК, а с конкретным микробелком.
Далее для каждой такой последовательности алгоритм рассчитывает набор биофизических признаков: длину, аминокислотный состав, распределение заряда, гидрофобность, склонность к формированию вторичной структуры и другие характеристики. Так микробелок превращается уже в числовой профиль.
Профиль затем сравнивается с двумя обучающими классами: уже указанными натуральными SAM и псевдобелками PRISM.
Когда в систему поступает новый smORF, модель не ищет точное совпадение с конкретным белком. Она оценивает, к какому биофизическому паттерну он ближе.
На выходе исследователь получает вероятность: насколько данная последовательность похожа на функциональный микробелок.
Уже полученные кандидаты становятся приоритетными для лабораторной проверки — например, методом CRISPR-нокаута.

Когда алгоритм применили к крупному опубликованному набору данных Mudge-2022 из 7 264 активно транслируемых smORF, около 8% были классифицированы как SAM. Остальные 92% оказались PRISM-подобными. Впрочем, оговоримся: это не означает, что 92% не имеют функции, — просто эти они биохимически не похожи на классические микробелки, и их свойства требуют отдельной проверки.

ShortStop в клинике и не только

Но перейдем от абстракции к практике. Согласно метрикам, приведенными в статье, точность классификации ShortStop уже достигает 94%, а чувствительность — 96%.

Микропротеин PIGBOS (пурпурный) показан сидящим на наружных мембранах митохондрий (зеленый) и готовым вступить в контакт с другими органеллами клетки. Источник

Недавно мощность системы была продемонстрирована при анализе экспрессии генов в опухолях легких по сравнению со здоровой тканью. ShortStop выявил 210 новых кандидатов в микропротеины, некоторые из них подтвердились на масс-спектрометрии. Среди них был и StARuMP, резко повышающийся при раке легких, — его никак не удавалось обнаружить традиционными методами анализа. Другие из найденных микропротеинов сейчас рассматривают как потенциальные биомаркеры. Часть — как возможные терапевтические мишени.

Все больше работ показывает, что связанные с раком микробелки — в том числе те, что кодируются длинными некодирующими РНК, — участвуют в инвазии опухоли, ее миграции и устойчивости к лекарствам. То есть они — полноценные распорядители процесса. Это напрямую затрагивает персонализированную онкологию — такие молекулы могут стать новыми точками вмешательства.

«Свинья в темных очках» — так, по словам исследователя PIGBOS, он представляет себе этот микропротеин

Где еще применяются микробелки?

Ожирение
Не «Оземпиком» единым! В Институте Солка исследуют микропротеины в жировых клетках. Один из них — Adipocyte sORF 1183 — оказался регулятором дифференцировки адипоцитов. Иначе говоря, он влияет на формирование жировых клеток, и это делает его вероятной мишенью для будущих препаратов.
Болезни сердца
Каптоприл (он же капотен) — первый препарат из класса ингибиторов ангиотензинпревращающего фермента, полученный на основе исследований коротких пептидов из яда змеи — обыкновенной жарараки. Что интересно, это произошло задолго до того, как микропротеины начали рассматривать как самостоятельную область исследований.
Нейродегенерация
При болезнях Альцгеймера и Паркинсона клетки страдают от накопления неправильно свернутых белков. Сейчас исследователи ищут микропротеины, позволяющие молекулам справляться с белковым мусором.
PIGBOS
Этот микробелок в 54 аминокислоты расположен на внешней мембране митохондрий. Он регулирует стресс эндоплазматического ретикулума — механизм, который определяет, выживет клетка или запустит самоуничтожение. Поскольку нарушения такого стресс-ответа характерны и для рака, и для, например, болезней Паркинсона и Альцгеймера, исследования PIGBOS особенно важны.
Мышцы
Во время эмбрионального развития 84-аминокислотный белок помогает отдельным мышечным клеткам сливаться в волокна. Без него мышцы просто не формируются.

И это только старт: активно микробелки изучаются в новейшее время — с начала 2010-х.

Подытоживая, можно сказать, что темный протеом окончательно убедил науку: наше представление о геноме было слишком упрощенным, и теперь мы как никогда нуждаемся в новом нарративе. Наука долго смотрела только на крупные белки, полностью игнорируя важнейших акторов нашего генома, и это, безусловно (на радость гомеопатам и гадалкам на Таро), было ее ошибкой. Однако нам повезло — прогресс в области протеогеномики примерно совпал с бумом ИИ. А значит, если до цифрового бессмертия не доберемся, утонув в океане нейрослопа, то хотя бы на «потрогать аналоговое» можем рассчитывать.

Темный протеом, или Как микробелки прятались в геноме на виду у всех