К нашей команде лекторов присоединился новый преподаватель Алексей Зарубин. Мы задали ему несколько вопросов про профессиональный рост и текущие научные задачи, а также спросили совета, что нужно для успешной карьеры в области «сухой биологии». Публикуем самое интересное из интервью с Алексеем.
Решение проблемы прогноза структуры белка откроет новую эпоху управляемой биологии.
Американский исследователь создал нейронную сеть ProteinNet, которая способна предсказывать структуру белка за миллисекунды. Ученый опубликовал статью о разработке на страницах Cell Systems и выложил код на сайт GitHub.
Корпоративная магистерская программа JetBrains в Университете ИТМО «Разработка программного обеспечения» приглашает на летний лекторий. С 9 по 20 июля выпускники, преподаватели и друзья программы прочтут четыре лекции по разным направлениям.
Мероприятие будет интересно начинающим исследователям и разработчикам, студентам IT-специальностей. Расписание лекций внутри.
На интенсиве по анализу NGS-данных идет практика по транскриптомике. Участник курса после занятия дал задачу ChatGPT написать скрипт для обработки данных RNA-seq. С первой попытки удалось получить рабочий скрипт.
Повсеместный переход на Болонскую систему даёт студентам возможность сменить ВУЗ после получения диплома бакалавра. Однако немногие студенты задумываются об этом. Во многих ВУЗах магистерская программа очень «разрежена»: присутствует множество непрофильных курсов (философия, культурология и т.д.), профильных же очень мало, и для того, чтобы их сдать, достаточно просто появиться на экзамене/зачёте.
Тех, кто ещё сохранил желание учиться, а также интересуется биоинформатикой и имеет образование в области математики и/или информатики, кафедра математических и информационных технологий Академического университета приглашает в новую магистратуру по биоинформатике в Санкт-Петербурге.
Курсы ориентированы, преимущественно, на студентов старших курсов математических и технических специальностей, интересующихся биоинформатикой.
Курсы открыты для вольнослушателей и бесплатны (но необходимо заполнить форму). Для вольнослушателей возможна аттестация (проверка домашних заданий, проведение и проверка экзаменов) с последующей выдачей дипломов.
Несколько дней назад состоялся официальный запуск новой интернет-игры Phylo. Это проект, в котором учёные пытаются использовать естественные способности мозга игроков к распознаванию образов и решению головоломок (компьютеры справляются с этим пока очень плохо). Головоломки в виде игры помогут определить происхождение генетических болезней.
Phylo — не первая игра такого рода. Она стоит на плечах таких краудсорсинговых игр как Foldit (свёртывание белков) и Galaxy Zoo (сортировка галактик).
Повсеместный переход на Болонскую систему даёт студентам возможность сменить ВУЗ после получения диплома бакалавра, однако не все студенты понимают, как это может изменить их жизнь. Во многих ВУЗах магистерская программа очень "разрежена": присутствует множество непрофильных курсов (философия, культурология и т.д.), профильных же очень мало, и для того, чтобы их сдать, достаточно просто появиться на экзамене/зачёте.
Тех, кто ещё сохранил желание учиться, кафедра математических и информационных технологий Санкт-Петербургского академического университета Российской академии наук приглашает в магистратуру для обучения по одной из трёх программ:
Думаю, все пользователи Хабра знакомы с успехами человечества в области микроэлектроники, подавляющее большинство — покорения космоса, немалая часть — физики. Но почти никто не знает о том, что прямо сейчас в биологии происходит революция, которая изменит нашу жизнь в ближайшие несколько десятилетий не меньше, чем распространение компьютеров. Более того, эта революция напрямую связана с успехами в построении мощных вычислительных систем.Конечно же, какие-то «круги по воде» расходятся. Но далеко не каждый способен сопоставить истерию в СМИ относительно ГМО, слово «рекомбинантный» на пузырьке с интерфероном или инсулином и невнятные (в России) слухи о неком 23andme. На самом деле, все эти явления связаны одной нитью. И распутывать эту нить лучше с самого начала.
Первого мая в Computer Science клубе при ПОМИ РАН состоятся три интересные лекции. Лекции можно послушать вживую в ПОМИ РАН (Санкт-Петербург, наб. р. Фонтанки, д. 27; вход свободный, никакой предварительной регистрации не требуется) или же по трансляции, организуемой проектом Лекториум.
Американские химики изобрели способ генной маркировки белков, так что они начинают светиться одним из семи цветов в видимом диапазоне. Из семи цветов получается 49 цветовых пар, чего вполне достаточно для кодировки букв, цифр и других знаков. Учёные продемонстрировали новую технологию на бактериях Escherichia coli.
Обнаружил жесткую нехватку информации по биоинформатике в русском сегменте. Не знаю, уж, востребована она или нет, но хочу предоставить на суд читателя вводную часть, которую можно назвать практическая биоинформатика, которой мне очень не хватало для ознакомления с предметом. В этой главе я хочу описать путь, который пришлось пройти мне до настоящего момента, когда я уже не шарахаюсь от фраз: вот вам FASTQ файл и постройте мне bed graph для genome browser. Чтобы в дальнейшем вести разговор об интересном, хочу по диагонали пройтись по определениям и программам первичной обработки данных, без которых трудно говорить на одном языке.
Эта статья расскажет о том, как обработать данные, полученные после pipeline, выходом которого будет sam/bam файл[1], создать несложный bed graph файл (http://genome.ucsc.edu/FAQ/FAQformat.html) и просмотреть его с помощью UCSC genome browser[2]. Очень сложно решиться, на чем писать программы, ибо уже есть огромное количество чужих наработок и совсем не хочется сочинять колесо там, где этот этап уже пройден. Долго мучаясь, я решил остановиться на C++, хотя Python и R рассматривались на равных. Также сохранилась идея, что может понадобиться графика, да ещё и под Linux, поэтому к С++ прибавилось Qt. Надеюсь, в этой статье я расскажу достаточно подробно о всем выше перечисленном, чтобы ответить на вопрос, заданный мне в начале пути и озвученный в первой части повествования.
Обращаюсь с прошением. Начал писать статьи по биоинформатике и понял, что более менее подходящая тематика «Биотехнологии». Но биотехнология не отвечает на вопросы биоинформатики. Вот две ссылки из wikipedia Биотехнология, Биоинформатика.
Приведу несколько фактов/лозунгов в поддержку открытия нового блога, также думаю необходимо, чтобы блог мог читать весь интернет. Я когда искал русскоязычные описания – оказалось, что их просто нет. И так факты.
На каждом этапе эксперимента, начиная от подготовки материала, продолжая проведением PCR и заканчивая секвенированием, происходит накопление ошибки. Нам нужен механизм оценки значимости результата. Какова вероятность, что риды, оказавшиеся на некотором участке генома, оказались там неслучайно? Подход, представленный в этой статье, применим для данных, полученных с помощью DNA-seq, и рассказывает о возможности применения распределения Пуассона для оценки значимости.
После прочтения вводной статьи portah о биоинформатике, в частости технологиях Chip-Seq и RNA-Seq, мне крайне понравилась идея пополнения, по мере сил, русскоязычных статей о биоинформатике, и особенно о ее «практической» составляющей. Поэтому я предлагаю этот краткий обзор pipeline для анализа метилома по технологии Illumina 450K Human Methylation.
В современном мире анализа данных использовать только один метод или только один подход означает, что рано или поздно ты столкнешься с фактом, как сильно ты ошибался. Для анализа данных комбинируют различные методики, сравнивают результат и на основании сравнения уже делают более точные прогнозы. В программе ZINBA использован именно такой подход. Разработчики объединили разнообразные методы анализа DNA-seq экспериментов в едином пакете. Этот пакет написан для программы статистической обработки данных R. Что же делает ZINBA? Находит различные обогащенные регионы даже в тех случаях, когда некоторые из них были усилены, например, химически или имеют разную степень соотношения сигнал-шум.
В стремлении рассказать о самом сложном, как можно быстрее, очевидно, забываешь о самом простом. И, в моем случае, не только о простом, но и о важном связывающем звене. Причинно-следственная связь слегка нарушилась. В моих предыдущих статьях (1, 2, 3, 4) описаны математический аспект и программирование, но в них практически нет биологии. Поэтому эта статья о том, какую именно часть молекулярной биологии пытаются раскрыть, предсказать, увидеть и решить описываемые мною программы и алгоритмы.
В предыдущих статьях (1,2) мы познакомились с тем, как могут выглядеть данные в зависимости от проведенного биологического эксперимента. На основании этих визуализированных данных были сделаны предположения о том, что же происходит внутри клетки. Теперь остановимся на том, как математически и алгоритмически проанализировать данные для того, чтобы машины за нас могли выполнить рутинную работу. К сожалению, после прочтения множества статей по анализу данных у меня сложилось впечатление, что однозначного или наиболее универсального решения не существует. Есть алгоритмы, которые хорошо себя показывают на некотором наборе данных, а в других случаях уже не отвечают поставленным задачам.