Откуда берется применение ML в России на гос.уровне? / Хабр

Предисловие

Всем привет!

Вопрос в заголовке не риторический, мне правда интересно. Если вдруг кто-то знает на него ответ просьба написать в комментариях, возможно я пытался зайти не с той стороны.

Так же уточняю, что у меня нет цели на кого-то нажаловаться поэтому в ответах из министерств я убрал все печати с именами и подписи ответственных чиновников. Мне интересно разобраться в том, как эта система работает.

С чего все началось?

Все началось с того, что в конце 2019 я понял, что в своей предыдущей области проф.деятельности достиг некого пика и дальше развитие в этой области мне:

не интересно
оно возможно, но, полностью соответствует принципу Парето где мне надо было бы потрать очень много усилий ради призрачных перспектив, да еще и не таких желанных, как мне казалось в начале пути.

Благодаря одной знаменательной посиделке у друзей я понял, что давнее, заглушаемое по разным причинам желание — «пойти в айти» а именно в ML и конкретно у меня может получиться. Не буду расписывать то как я учился, но это было реально интенсивно, продуктивно и главное увлекательно, настолько что мне приходилось себя заставлять отдыхать. В итоге я пошел ва-банк. Уволился со старой работы и посвятил почти все освободившееся время учебе.

Со временем начал задумываться о поиске работы в новом полюбившемся деле, но тут началась история с Covid. Так же, не секрет что машинное обучение в последнее время стало очень модной темой и как следствие на рынке труда появилось значительное количество соискателей на позиции джунов/стажеров в области ДС. В совокупности эти 2 фактора, лично для меня означали, что даже с неплохими результатами в нескольких компетишенах для работодателя я всего лишь один из множества таких же, как и я новичков в области и шансов даже просто дойти до этапа собеседования у меня мало.

Поразмыслив и поняв, что единственное чем я могу выгодно отличиться от остальных — это наличием хороших проектов, я начал искать тему для первого проекта. Когда я только начинал изучать ML меня прямо распирало от количества идей, но к моменту выбора темы проекта этих идей стало меньше, так как уже немного вникнув в специфику я начал думать слегка по-другому — «ага, тут идея хорошая, но open CV не подойдет из-за его предварительной обученности а учить свою у меня не хватит ресурсов и данных, только если не брать GAN сеть и не генерить изображения с её помощью. А тут ограничения по запросам к бесплатному варианту API и что бы выгрузить нормальный датасет нужно либо много времени, либо деньги» ну и так далее.

Решив пойти с другого конца, я вернулся на Каггл, открыл датасеты, отранжировал по «горячести» и тут меня осенило. Ковид же на дворе! Что может быть лучше — сделать не просто проект, а проект на хайповой теме! Тут меня наверняка заметят и оторвут с руками. Так я тогда думал. Ага, щазз.

Забегая вперед не могу не отметить, что несмотря на все мои небольшие, но преимущества, мои отклики на хх либо откровенно игнорировали, либо вежливо отвечали отказами даже на те вакансии на которые меня порекомендовал внутренний сотрудник компании. Всего за месяц поиска работы откликов с моей стороны было штук 70 и кажется 3 собеседования после которых я сам принимал отрицательное решение. Не знаю в чем конкретно было дело в каждом отдельном случае, но подозреваю что дело в возрасте (30+), отсутствии профильного образования/опыта и кривоватых проектах.

Но конкретно эта история поиска работы с хорошим концом — меня сам нашел на хх мой текущий руководитель, я быстро прошел этапы собеседований и теперь я занимаюсь аналитикой в том числе и с применением МЛ и мне это очень нравится. Более того за это мне еще и платят! В лицо я своему руководителю это, наверное, не скажу в силу своей определенной интровертности, но спасибо тебе огромное, если ты это вдруг прочтешь)

Ну да ладно, меня слишком занесло в сторону лирики. Ближе

К делу

Раздобыв все на том же каггле датасет (https://www.kaggle.com/parthachakraborty/pneumonia-chest-x-ray) я написал небольшую sequential сеть с точностью порядка 85%. Взял я в итоге датасет именно с пневмонией в целом, а не с пневмонией вызванной ковидом потому что сетов с значительным количеством фотографий именно с COVID-19 тогда я не нашел, а про методы аугментации я на тот момент знал немного.

Удачным образом я вспомнил что у меня есть знакомый рентгенолог, с помощью которого я узнал некоторые детали по поводу отличий диагностирования пневмонии по снимках КТ и методами рентгенограммы. Так же я скинул ему классифицированные моделью снимки, которые взял с просторов паутины по запросу «рентгеновские снимки легких зараженных пневмонией». Результаты получились чуть хуже, чем я предполагал. Так, на нескольких фотографиях которые сеть восприняла за бактериальную пневмонию на самом деле был туберкулез которого просто не было в обучающей выборке, но в остальном процент ошибок соответствовал model.score(X_valid, y_valid).

Я был окрылен. Еще бы, я занимался настоящим дата сайнсом, а не делал 70-ый сабмишн в попытках прорваться в топ 1%, прогнозируя цены в Мельбурне. Не удивлюсь, если узнаю, что у тамошних риелторов начинается приступ икоты при попытке оценить какой-нибудь дом. Извините, не удержался.

В общем я был воодушевлен, отправил свежий десяток откликов и … опять ничего.

Когда мне в голову пришла эта идея, я не могу сказать, что я руководствовался исключительно благими намерениями вроде миру-мир, спасем бедных и другими. Нет, у меня была цель максимально быстро найти работу и для этого мне нужно было выделиться в положительном ключе из толпы таких же «хочу в МЛ».

Но, при этом, проходя в свое время подростковый кризис «зачем мы здесь» и будучи атеистом, я определил для себя свое кредо – что я хочу сделать мир лучше, т.к. остальное, в моем понимании не имеет реальной ценности в больших масштабах. Идеалистично и наивно? Да, это так и то, что я сделал и то, почему я вообще пишу этот пост как раз вытекает из этих моих качеств.

Я решил написать в приемную президента РФ предложение примерно следующего характера (точный текст у меня не сохранился, т.к. пишется он в специальной форме на сайте приемной): «я, такой-то такой-то, в рамках обозначения Президентом РФ ключевых направлений развития государства, а именно, в рамках применении МЛ в различных сферах государства предлагаю следующее: организовать сбор и хранение рентгеновских снимков, и сделать это хранилище доступным для обработки методами МЛ и возможностью подачи обратной связи». Далее я кратко описал свою модель, обозначил что даже я со своим небольшим багажом знаний смог сделать рекомендательную модель, которая сможет работать в паре с рентгенологом и принести пользу. А в России значительное количество энтузиастов ДС с высоким уровнем знаний/умений, которые смогут сделать очень многое не только в области медицины, но и в остальных областях где в принципе можно применить МЛ.

Точный текст обращения я к сожалению уже не помню так как дело было в марте или апреле но общий смысл точно такой.

Развивая эту тему, сейчас я бы дополнил что в принципе нужно собирать и агрегировать максимально большое количество открытых данных и выкатывать на аналог Каггла где так же можно было бы ставить задачи, обсуждать их решения и находить лучшие. Росстат уже делает что то похожее касаемо публикации данных, я даже успел кое-что проанализировать, но эту тему нужно развивать и дальше.

Сообщение зарегистрировали, о чем пришло отдельное письмо, но я все равно изрядно удивился, когда увидел, что пришел ответ. Первый ответ был от Минздрава. Он был краток и лаконичен.

Суть ответа как мне видится – «ок, спасибо, не надо».

Я думал, что на этом история и закончилась, но пришел еще один ответ, уже от Министерства Промышленности и Торговли. Ответ очень развернутый и подробный, но у меня было ощущение что, то ли им передали искаженную информацию то ли они просто неправильно меня поняли.

Я не просил какой-то финансовой помощи для реализации этого проекта, более того я ни слова не написал о том, что я хочу в нем принимать участие (хотя я бы естественно не отказался). Ну, ответили, хорошо, и на этом спасибо.

Я бы благополучно забыл про эту историю, если бы регулярно не натыкался на новости вроде этой или этой (совсем свежая) или особенно этой. После ее прочтения я посмеялся немного, потому что речь идет ровно о том, о чем я писал.

Итог

Фух, ну и пост вышел.

Вот ключевые вопросы, которые я хотел задать.

Кто занимается внедрением МЛ в «бизнес-процессах» государства? Кто руководит этими людьми?

Централизовано ли это или в каждом министерстве свои дата сайнтисты? А есть ли они вообще в гос.аппарате?

Я видел текст национальной стратегии развития искусственного интеллекта на период до 2030 года, но у меня остались десятки вопросов, кому их можно задать? Что бы получить разумный ответ, естественно.

Учитывая те ответы, что я получил у меня есть некие сомнения что данная стратегия не просто декларация намерений, а реальный план и что вся эта затея не обернется финансированием нескольких «своих» витринных пэт-проджектов на которые потом будут ссылаться, отмечая успех стратегии.

Вообще, кто-нибудь из тех, кто прочитал этот пост занимается реализацией каких то программ из этой стратегии?

Всем спасибо за уделенные n минут своего времени!