Перевод поста Пола-Жана Летурно (Paul-Jean Letourneau) "
Searching Genomes with Mathematica and HadoopLink".
Код, приведенный в статье, можно скачать
здесь.
Примечание: этот пост написан как продолжение поста Большие массивы данных в Mathematica с HadoopLink.
Примечание переводчика: автор данной статьи под термином
геном понимает всю совокупность генов некоторого структурного элемента живой материи. Это несколько отличается от стандартных определений, близких по смыслу, в которых подразумевается либо вся совокупность генов конкретного вида (Ridley, M. (2006). Genome. New York, NY: Harper Perennial), либо полный набор генетических инструкций, которые можно найти в клетке (
http://www.genome.gov/Glossary/index.cfm?id=90). В данном посте будем пользоваться представлением автора.
В моём предыдущем
посте я описал, как писать алгоритмы
MapReduce (
вики) в
Mathematica с помощью пакета
HadoopLink. Теперь давайте копнём немного глубже и напишем более серьёзный алгоритм
MapReduce.
Я уже писал раньше о некоторых
занятных возможностях в сфере геномики в Wolfram|Alpha. Если вам это интересно, вы даже можете осуществлять
поиск по человеческому геному определённых последовательностей ДНК. Биологам часто требуется найти расположение фрагмента ДНК, которые они нашли в лаборатории, для определения того, какому животному принадлежит этого фрагмент, или из какой он хромосомы. Давайте используем
HadoopLink для создания геномной поисковой системы!