Андрей Лукьяненко @Artgor
Data scientist @ Careem (Dubai)
Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Works in
- Date of birth
- Registered
- Activity
Specialization
Data Scientist
Lead
From 500,000 ₽
Python
Machine learning
Deep Learning
Natural language processing
Neural networks
Такой подход, конечно, возможен, но в случае если человек не пишет никакой текст от себя, то на первом этапе у нас слишком много вариантов - основных сущностей несколько десятков, и даже самых распространённых из них довольно много.
Кроме того, как написал DASpit, итеративный опрос понятен пациенту, а выбор значений в жестких шаблонах может вызвать непонимание и недоверие.
У нас был именно такой подход, он описан в разделе "Высокоуровневое техническое описание".
Это хороший вопрос :)
Изначально у нас была идея попробовать получить такой датасет у поликлиник (что само по себе сложно из-за того, что это персональные данные), а потом считать на нём статистики (что, например, если человек жалуется на боли в горле, то с вероятностью N% это ангина). Но при таком подходе нам обязательно сразу иметь модели NER высокого качества или делать полную разметке таких датасетов на все сущности. Сделать это было нереально на тот момент.
Поэтому мы использовали другой подход: врачи-эксперты вручную составляли таблицы взаимосвязей между симптомами и врачами/диагнозами и ставили коэффициенты на основе своего опыта. Это не так масштабируемо, но зато надёжно, понятно и легко редактируемо.
Спасибо за ответ, Ваш опыт звучит интересно!
Согласен, что из коробки на английском больше рабочих инструментов, но, к сожалению, из-за особенностей домена и русского языка не было возможности их использовать.
Да, анализировали - в связи с этим были сделаны разнообразные ограничения, например:
ограничивать количество показываемых вариантов ответа. Например, мы не можем спросить человека "что у Вас болит" и показать 150+ вариантов ответа - никто не будет все их просматривать. Поэтому была сделана иерархическая структура, чтобы на каждом шаге показывать небольшое количество вариантов ответа;
именно для упрощения интерфейса ввели возможность ввода ответа в свободной форме;
старались минимизировать количество вопросов, задаваемых пользователю. Большинство людей будет готово ответить на несколько вопросов, но если их будет 20+, то многие бросят это;
К сожалению, такой вариант нам не подходил: обычно люди не пишут всю необходимую информацию (пациент скорее всего напишет "вот у меня вчера нога заболела", а не "у меня сильная боль в лодыжке второй день при ходьбе"), и если брать только написанный ими текст, то врачу всё равно прийдётся доопрашивать пациента, а значит чат-бот теряет изначальный смысл.
Имхо, любой общий анализ количества айтишников без разбиения на уровни (джун, миддл, сеньор, выше) - это измерение средней температуры по больнице.
На уровне джунов в последние годы спрос на работу значительно превышает предложение, а на уровне сеньоров и выше - наоборот.
И как дополнительный пункт: могу ошибаться, но чем выше уровень человека, тем ниже шансов, что он размещает резюме на HH - обычно сеньорам и выше пишут в LinkedIn, на почту, в мессенджеры и т. д.
Всегда поражают те, кто стремится вернуться в СССР.
Если раньше было плохо, то лучше стремиться к тому, чтобы в будущем было лучше, а не также плохо, как и раньше.
https://www.kaggle.com/competitions/donorschoose-application-screening/overview
Статья интересна, но я так и не понял, что в этой проблеме нового?
Вроде наука всегда была уделом людей, которые очень хотели заниматься этим делом - ибо все остальные уходили за нормальными зарплатами.
Если есть возможность получать "в 20 раз больше" в коммерческой компании, чем в науке, то в науке останутся только те, кто готов этим пожертвовать. Подавляющее большинство людей пойдёт зарабатывать деньги и это нормально.
Это не поможет, опять же из-за зарплат. Если есть выбор получать 300к в коммерческой компании или 15к в науке, только особо
упоротыеувлеченные останутся в науке.Тем более, что крупные IT компании имеют возможность дать людям ресурсы, чтобы делать крутые и интересные исследования.
"договор о ненападении" - вообще противозаконен или не имеет юридической силы: https://e-kontur.ru/enquiry/1541/non-compete_clause
У меня МТС, пока App Store работает.
У меня, кстати, пока тоже работает :)
https://tjournal.ru/internet/437978-polzovateli-app-store-iz-rossii-pozhalovalis-na-problemy-s-dostupom-prilozheniya-ne-obnovlyayutsya-i-ne-skachivayutsya
Началось
А какие, собственно говоря, другие варианты есть, если все провайдеры включат это?
Я рад, что статья понравилась! :)
Конечно, можно на "ты".
К тому моменту как я нашёл первую работу в сфере DS, у меня небольшое портфолио: https://erlemar.github.io/ В то время в нем ещё не было разделов про каггл, и некоторых проектов, но большая часть контента уже присутствовала. То есть я знал основные библиотеки для обработки данных, визуализации данных и машинного обучения, немного разбирался в рекомендательных системах, в NLP и т. д.
Если говорить про матстат и тервер - я проходил курсы на https://www.khanacademy.org/
По факту, я бы сказал, что для большинства работ достаточно базовых знаний математики и статистики: перемножения матриц, производные, p-value, ошибки первого и второго рода, статистические тесты. Где-то могут требоваться более глубокие знания, но это скорее редкость.
Интересно почему "гибкими" должны быть сотрудники и соглашаться на меньшее. Почему бы компаниям не быть "гибкими" и предлагать больше?
Для получения первой работы был нужен python, SQL, статистика/математика, знание самого машинного обучения. Кроме того я начал делать портфолио - https://erlemar.github.io/. На момент получения первой работы в нём не было разделов про каггл и отдельные проекты, и ещё пары отдельных примеров, все остальное присутствовало.
Опыт работы в консалтинге для поиска первой работы не помогал совсем, но после этого, начиная с позиции middle, польза уже была.
Это типа производитель должен?
Или кто-то вручную ставить будет?)