Pull to refresh
55
0
Андрей Лукьяненко @Artgor

Data scientist @ Careem (Dubai)

Send message

Такой подход, конечно, возможен, но в случае если человек не пишет никакой текст от себя, то на первом этапе у нас слишком много вариантов - основных сущностей несколько десятков, и даже самых распространённых из них довольно много.

Кроме того, как написал DASpit, итеративный опрос понятен пациенту, а выбор значений в жестких шаблонах может вызвать непонимание и недоверие.

Вначале человек пишет неструктурированный текст о причине обращения, потом на базе этого нужна серия наводящих вопросов из алгоритма сбора анамнеза под основные нозологии.

У нас был именно такой подход, он описан в разделе "Высокоуровневое техническое описание".

Это хороший вопрос :)

Изначально у нас была идея попробовать получить такой датасет у поликлиник (что само по себе сложно из-за того, что это персональные данные), а потом считать на нём статистики (что, например, если человек жалуется на боли в горле, то с вероятностью N% это ангина). Но при таком подходе нам обязательно сразу иметь модели NER высокого качества или делать полную разметке таких датасетов на все сущности. Сделать это было нереально на тот момент.

Поэтому мы использовали другой подход: врачи-эксперты вручную составляли таблицы взаимосвязей между симптомами и врачами/диагнозами и ставили коэффициенты на основе своего опыта. Это не так масштабируемо, но зато надёжно, понятно и легко редактируемо.

Спасибо за ответ, Ваш опыт звучит интересно!

Согласен, что из коробки на английском больше рабочих инструментов, но, к сожалению, из-за особенностей домена и русского языка не было возможности их использовать.

Если "фильтр" в лице бота или меню на телефоне больше 2-3х уровней пользователи просто уходят. И это еще не в медтехе, в медтехе подозреваю всё еще суровее. Делали ли вы какой-то анализ на этот счет?

Да, анализировали - в связи с этим были сделаны разнообразные ограничения, например:

  • ограничивать количество показываемых вариантов ответа. Например, мы не можем спросить человека "что у Вас болит" и показать 150+ вариантов ответа - никто не будет все их просматривать. Поэтому была сделана иерархическая структура, чтобы на каждом шаге показывать небольшое количество вариантов ответа;

  • именно для упрощения интерфейса ввели возможность ввода ответа в свободной форме;

  • старались минимизировать количество вопросов, задаваемых пользователю. Большинство людей будет готово ответить на несколько вопросов, но если их будет 20+, то многие бросят это;

анализировать поток сознания пользователя (или поток данных от множества датчиков) что бы выделить несколько наиболее вероятных кластеров (или сжать многомерное облако множества переменных) до чего-то удобоваримого для специалиста в данной области.

К сожалению, такой вариант нам не подходил: обычно люди не пишут всю необходимую информацию (пациент скорее всего напишет "вот у меня вчера нога заболела", а не "у меня сильная боль в лодыжке второй день при ходьбе"), и если брать только написанный ими текст, то врачу всё равно прийдётся доопрашивать пациента, а значит чат-бот теряет изначальный смысл.

Имхо, любой общий анализ количества айтишников без разбиения на уровни (джун, миддл, сеньор, выше) - это измерение средней температуры по больнице.

На уровне джунов в последние годы спрос на работу значительно превышает предложение, а на уровне сеньоров и выше - наоборот.

И как дополнительный пункт: могу ошибаться, но чем выше уровень человека, тем ниже шансов, что он размещает резюме на HH - обычно сеньорам и выше пишут в LinkedIn, на почту, в мессенджеры и т. д.

Всегда поражают те, кто стремится вернуться в СССР.

Если раньше было плохо, то лучше стремиться к тому, чтобы в будущем было лучше, а не также плохо, как и раньше.

Статья интересна, но я так и не понял, что в этой проблеме нового?

Вроде наука всегда была уделом людей, которые очень хотели заниматься этим делом - ибо все остальные уходили за нормальными зарплатами.

Если есть возможность получать "в 20 раз больше" в коммерческой компании, чем в науке, то в науке останутся только те, кто готов этим пожертвовать. Подавляющее большинство людей пойдёт зарабатывать деньги и это нормально.

А так, хотя бы мешающие факторы убрать — уже будет счастье несказанное. Например, затыкание педагогических дыр телами аспирантов, или цирк с закупкой техники, или [censored]. И это все проблемы управления. Начинать точно нужно с этого.

Это не поможет, опять же из-за зарплат. Если есть выбор получать 300к в коммерческой компании или 15к в науке, только особо упоротые увлеченные останутся в науке.

Тем более, что крупные IT компании имеют возможность дать людям ресурсы, чтобы делать крутые и интересные исследования.

"договор о ненападении" - вообще противозаконен или не имеет юридической силы: https://e-kontur.ru/enquiry/1541/non-compete_clause

У меня, кстати, пока тоже работает :)

Вы подчинитесь своему провайдеру, когда получите такой запрет?

А какие, собственно говоря, другие варианты есть, если все провайдеры включат это?

Я рад, что статья понравилась! :)

Конечно, можно на "ты".

К тому моменту как я нашёл первую работу в сфере DS, у меня небольшое портфолио: https://erlemar.github.io/ В то время в нем ещё не было разделов про каггл, и некоторых проектов, но большая часть контента уже присутствовала. То есть я знал основные библиотеки для обработки данных, визуализации данных и машинного обучения, немного разбирался в рекомендательных системах, в NLP и т. д.

Если говорить про матстат и тервер - я проходил курсы на https://www.khanacademy.org/

По факту, я бы сказал, что для большинства работ достаточно базовых знаний математики и статистики: перемножения матриц, производные, p-value, ошибки первого и второго рода, статистические тесты. Где-то могут требоваться более глубокие знания, но это скорее редкость.

Быть гибкими – это одно из условий для выживания на рынке постоянно меняющейся ЗП.

Интересно почему "гибкими" должны быть сотрудники и соглашаться на меньшее. Почему бы компаниям не быть "гибкими" и предлагать больше?

Для получения первой работы был нужен python, SQL, статистика/математика, знание самого машинного обучения. Кроме того я начал делать портфолио - https://erlemar.github.io/. На момент получения первой работы в нём не было разделов про каггл и отдельные проекты, и ещё пары отдельных примеров, все остальное присутствовало.

Опыт работы в консалтинге для поиска первой работы не помогал совсем, но после этого, начиная с позиции middle, польза уже была.

Вы бы хоть написали, что оригинальная статья от 2019 года. Сути не меняет, но все равно важно.
Мне ещё хочется понять, как вообще это будут ставить
Это типа производитель должен?
Или кто-то вручную ставить будет?)
Уточню, вроде выбирают не авторы статей, а авторы датасетов. И дают api, с помощью которого это можно вытащить.
Насколько я знаю, выбор цвета делают сами авторы — нет каких-либо четких принципов выбора цвета для лейблов.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity

Specialization

Data Scientist
Lead
From 500,000 ₽
Python
Machine learning
Deep Learning
Natural language processing
Neural networks