Pull to refresh
26
0
Артур Кадурин @Spoilt333

Data Scientist

Send message
Вы правы, спасибо.
А потому что картинки местами перепутал:)

Спасибо, учту.

В начале июня я проведу открытый вебинар на платформе Otus в котором расскажу какие задачи есть в разработке лекарственных препаратов и почему их можно решать с помощью нейронных сетей. В этой статье я показываю пример того как пользоваться pyTorch для того чтобы в следующих было понятно что вообще происходит. А в роли маленького винтика я действительно пишу относительно простые статьи в сравнении с тем что делают мои коллеги.
Уже написал. Ваша очередь.
В самой статье есть отчет о том к каким классам относятся сгенерированные вещества, я, к сожалению, в этом пока очень плохо разбираюсь, но ваш комментарий вполне уместен. Мы обучали модель только на одной клеточной линии и соответствующих препаратах, было бы очень неожиданно если бы модель сильно вышла за рамки этой выборки. Это одна из причин, почему это proof of concept, а не доведенное до испытаний исследование. Сейчас мы работаем над более совершенными моделями и планируем реальные испытания.
можно, такой цели не было, чтобы получить действительно хороший результат недостаточно учесть только одну клеточную линию и препараты для нее. сейчас работаем над моделями которые позволят перейти к моделированию и к реальным испытаниям.
проверки чего? это in silico исследование в результате которого мы получили, что половина сгенерированных этой сетью молекул имеет отношение к раку.
эта конкретная статья — proof of concept, все эксперименты, простите за каламбур, in silico. но динамику в целом для других исследований считаем да, очень медленно и упорно. в данном случае не было цели получить драг, но еще пара статей и начнем воплощать.
Похоже, что одно является следствием другого.
А вы как определяете направление?)
Вот, например, что думает об этом википедия: Стереофония
1. Использовали оригинальную, которая micans.org и писали свою с доп.ручками. В итоге своя осталась в виде прототипа на питоне, потому что реально лучше не стало. В оригинальной версии основной параметр -I, чем он больше тем, кажется, более пологое распределение получается.
2. Не пробовали, но обязательно попробуем, спасибо:)
3. Мы пробовали разные метрики, сейчас для кластеризации доменов тоже используем Жаккара, его и называю симилярити. Идея в том, что даже мера Жаккара может быть интерпретированна по-разному в зависимости от данных. Может оказаться так, что <0.5 — не похожи, 0.5-0.75 немного похожи, 0.75-0.9 похожи и т.д. И сразу понятно, что зависимость не линейная.
4. Пожалуйста:)
5. graph-tool не пробовали, пока не дошли руки.
6. Выбрали жираф, потому что на текущий момент намного меньше телодвижений для того чтоб его поднять и поиграться на кластере. Спарк тоже хочется, и с ним мы тоже поиграемся, но пока в прод не сможем запилить.
1. Кластеризация которую выдает MCL сильно зависит от симилярити. В своем мануале они пишут что неплохо было бы чтоб она интерпретировалась линейно. То есть вдвое большее значение симилярити подразумевает вдвое большую «похожесть». Поэкспериментируйте с преобразованием исходных значений. Всякое логарифмирование или экспонирование может помочь. У нас mcl'евские кластера доменов активно используются, об этом я немного говорил на прошлом хайлоаде.
Вообще, размеры кластеров на выходе этого алгоритма распределены похоже что по Ципфу, но нас это вполне устраивает. «Ручки» которые можно покрутить у алгоритма как раз меняют крутость распределения.

2. В NetworkX действительно нет кластеризации по-дефолту, однако есть прекрасная, хоть и сыроватая, библиотека Community. Она реализует отличную вот эту статью. К сожалению, даже на тачке со 128 гигами оперативы, NetworkX не справляется с нашими графами, поэтому сейчас пилим тот же алгоритм под Giraph. Об этом я надеюсь 11го сентября в Киеве рассказать.
Полученные наборы токенов с метками далее случайным образом распределяются на обучающую выборку (60%), выборку для feature selection (15%) и тестовую выборку (15%), – она сохраняется в mongoDB.

А оставшиеся 10% списываете на хоз.нужды?)
быстро места кончились… :(
Как и всегда, после/во время кризиса 90% рынка откатится от дорогих и «перспективных» решений на проверенные и дешевые.
В нашем случае помимо рекомендаций есть задача тегирования, выделения фич для других задач и еще много чего не озвученного.
Матрица дарений настолько разрежена, что нормально ассоциативные правила можно применять на очень маленькой подвыборке. Но вопрос тут скорее в другом. Какую задачу вы предлагаете так решать?
Кстати вариант похожий по смыслу на «пересекающиеся кластера» мы делали с помощью LDA, но топики подарков получились так себе, из-за того, что Ципфа никто не отменял. Были подарки попавшие почти везде с большим весом. Ну и визуальное представление кластеров получалось не настолько крутым. В этом варианте семантика вылазит на поверхность.
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity