Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
Неорганических химических веществ может быть огромное количество — от 10**18
Это не совсем так. Дело в том, что неорганические соединения с количеством химических элементов более 3 (кватернарные, квинтернарные и т.д.) склонны к вырождению, т.е. их свойства в основном определяются 2-3 элементами. Таким образом, формально ваше утверждение верно, но на практике — нет. С этим связана идея high-throughput materials design, поиска новых материалов путём простого перебора.
В этой статье я приведу примеры составления списка генов ответственных за плохой прогноз по выживаемости от рака и код поиска органических соединений и их номеров среди всех химических молекул базы ПабЧем.
Для поиска упоминаний в тексте растения используем .find(' plant'). В конце сохраняем файл с получившимися органическими соединениями и их номерами в ПабЧем-е.
Чую, что при таком коде где-то обязательно должна быть ошибка )) статическим анализатором бы это проверить...
Data mining в pubmed существенно интереснее, если поднять его локально. Особенно метаанализ. Полная база данных и апдейты скачиваются с ftp.
Data mining Pubmed и Pubchem — баз медицинской и биохимической информации