Тесты показывают, что для решения своей задачи, а именно пересказ английского текста на РУССКИЙ гига чат справляется хуже, чем несколько простых бесплатных западных моделей, которые на РУССКОМ строят предложения лучше (не без косяков, но в целом лучше), а на английском и подавно.
Спасибо) Технические да. Эксперименты показали, что нужно больше разнообразных и качествнно размеченных данных для улучшения моделей. На это нужны ресурсы и время. Пока занят несколько другим
Вопрос о некомпетентности расценивается мною обычно как объявление войны. Думаю, вы это сказали просто так в рамках рассуждений. Я просто сразу предупреждаю, можете расценивать это как хваставство (просто так быстрее, хотя и некорректно, обозначить позицию), но мои знания в моей профессиональной области одни из лучших в этой стране. Доказывать я это в Интернете не собираюсь, есть много людей, которые это подтвердят. Я не делаю систему поддержки принятия решений. Я не пытаюсь ставить диагнозы по ОАК, вы видимо не до конца поняли в чем идея. Кратко: это просто НИР. Все ассоциации, тем более в нашей стране, это очень консервативные и бюррократизированные организации, которые не согласятся ни с чьим тезисом, касающимся инноваций. Доказывать подобным структурам я ничего не собираюсь и другим не советую. Но помнится несколько лет назад мои тезисы про то, как нейронная сеть интерпретирует ОАК были без проблем опубликованы в сборнике конференции от данной ассоцииации. Так что бывают исключения. Результаты и время сами все расставят по своим местам. Алгоритм действий при подозрении на диагноз не равно диагностические критерии этого диагноза, поэтому это к делу не относится. Я работаю на результат. Если что-то дает результат, значит это что-то работает. Если кто-то не понимает как и почему, извините. В мире очень хорошо понимают, у нас вечная проблема с пониманием, может поэтому и отстаем даже от стран Африки в подобных вопросах. Вам спасибо за комментарии, надеюсь мой ответ не будет расценен на личный счет. Ничего личного, я не сторонник перепалок, мне неинтересны споры, только научные дискуссии. Удачи!
Если бы были четкие формальные алгоритмы, машинное обучение было бы не нужно. Дело не в картинке выше, дело в приниципе в отсуствии строгих формальных правил и/или в необходимости других данных, кроме ОАК. На той же картинке выше много других анализов, кроме ОАК.
Спасибо за статью, есть над чем подумать, в частности над методологией. По сути это разновидность бэгинга. Вопрос: можно ли представленный вами способ поиска порога заменить на поиск через ROC-анализ? Комментарий: независимо от метода, порог не будет являться стабильной величиной. Можно высчитать порог, который идеально будет делить данные, но в реальности он будет иметь интервал неопределенности (это можно показать через бутстрэп), что приведет к невозможности его использования. Если порог зафиксировать, метрики модели (чувствительность, специфичность..) будут тоже меняться от выборки к выборке. Возможно порог, как правило для принятия решения следует находить не через статистику (потому что ML делает практически тоже самое), а через эмпирический подход и знания предметной области, если это возможно.
Я бы так не сказал, что все лабораторные анализы легко формализовать, особенно ОАК, где много параметров. Например, железодефицитная анемия (самая часта форма анемии) не может быть абсолютно формализована показателями только ОАК. Даже если попытаться, то это будут несколько не всегда очевидных правил. Я делал аналогичный проект с большим числом других анализов, основанный на правилах. Отклонение параметров от нормы видно по референсам, как правило, они подсвечены (можно добавить в сервис). Строгий алгоритм нужен, если мы ставим окончательный диагноз и то не всегда. Здесь цель - заподозрить редкие заболевания крови человека в большом массиве данных и вовремя направить к конкретному врачу-специалисту (гематологу), тем самым сократив маршрутизацию больного, снизив время до постановки диагноза. По сути задача триажа. Случаи с подозрением на серьезные проблемы должны рассматриваться в приоритете. В Европе, например, компания Sysmex курировала проект (не знаю как сечас), где подобная аналитическая система работала в большом лабораторном хабе, который делал анализы из разных стран. В их рекламном ролике как раз был показан случай выявления заболевания крови у пациента, который пришел на прием к офтальмологу. ОАК был назначен планово перед операцией на глазах. По собственному опыту знаю, что терапевты часто направляют к гематологу с заключениями по ОАК, которые на самом деле не соответсвуют действительности (не видят истинную проблему, иногда ее нет и др.). Соглашусь, что это не самая актуальная задача, котороая может решаться ML. Она выполнялась в рамках НИР, для нее были доступны данные. Есть более актуальные задачи, да, но нет данных.
Вы не прочитали самую верхнюю строчку, "Введите реальный ОАК". Вы вводите нереальный ОАК и получаете нереальный ответ. Все просто. Нет смысла вводить то, что не может существовать в природе и делать на этом какие-то выводы. И я еще раз повторюсь, это не продукт для пользователя в Интернете, да и вообще пока не продукт, а результат НИР.
Спасибо, что не поленились написать такой длинный ответ. Я конечно же ничем не принебрегал) Если вы о том, что я прямо сейчас не редактирую статью, то не планировалось, максимум опечатки. Это научно-исследовательская работа как можно работать с медицинскими таблично-структурированными данными на примере ОАК. Вы и другие пишут пожелания уже к продукту. Я все это понимаю и даже знаю как может выглядеть конечный продукт как для врача, так и для пациента. Но продукт надо делать. Как я указал в начале, я не программист и у меня много другой профессиональной занятости. Для продукта мне нужна команда, хотя то, что есть, можно бессомненно улучшить. Ну и еще про врачей. Вы наверное не знаете просто, но среднестатистический врач-терапевт часто не может правильно расшифровать ОАК. У текущей версии сервиса не бинарная модель, в ней 9 классов со своими заключениями, некоторые редки, но говорят о серьезных заболеваниях. И еще, просто поверьте моему врачебному опыту, не редки случаи, когда пациент приходит к тому же гематологу на диагностику, а изменения в ОАК у него по данным амбулаторной карты уже как год, а то и дольше. Есть такие болезни. Тысячи анализов как и других медицинских данных возможно перегонять через умные скрининг системы, есть такие проекты в Европе, например. Я все комментарии внимательно прочитал, на многие ответил, в том числе и на ваш. Все будет учтено по мере моих сил и возможностей!
На правилах я тоже делал. Да, все объяснимо что и почему, но часто очень громоздко получается. Некоторые вещи при описании булевой логикой приводят к очень сложным правилам. С анализатора в лабораторную информационную систему выходят столько параметров, сколько запрограммировано. Есть краткие ОАК (5-6 параметров), есть развернутые - 25 параметров и выше, смотря что назначил врач. Модель сейчас обучена на развернутых ОАК (со всеми параметрами сразу), с краткими она работать откажется из-за нехватки данных.
Это хороший вопрос. На результат анализа, несмотря на все меры стандартизации, будет влиять оборудование, на котором он сделан. Есть много разных гематологических анализаторов разных производителей. Они могут выдавать измерения с некоторыми колебаниями относительно друг друга. С другой стороны диагноз какого-либо заболевания от этого не зависит. То есть, если анализ плохой, то плохой, независимо в какой лаборатории он сделан. Чтобы лаборатория откровенно выдавала ошибочные данные это вряд ли, все же есть служба контроля. Но модель может быть все равно чувствительна, поэтому нужна внешняя валидация. Проверка моделей на данных из других медицинских центров, например.
В ML это не совсем так. Вполне можно и часто даже нужно комбинировать или изменять существующие переменные в наборе данных с помощью арифметических операций. Этот процесс известен как feature engineering. Создавая новые переменные, можно потенциально повысить производительность своей модели. Модели ML не обязательно должны логически объясняться (черный ящик), скорее наоборот. Часто логика, что убрать, а что оставить там не срабатывает. Так можно в итоге дойти до простого алгоритма на правилах. Даже в простой логистической регрессии я могу умножить одну переменную на другую, создав третью, и тем самым улучшив модель. Но я не исключаю возможность упрощений. Уже были убраны несколько параметров, которые были изначально. Но весь этот поиск, эксперименты и переобучение требует немало времени. Поэтому в новой версии, я думаю, это возможно, но не быстро.
Спасибо, обязательно учту ваши пожелания в продолжении темы, в новом посте. Сервис показал свою работоспособность в ходе строгой внутренней валидации. Мне нужны данные для внешней валидации, пока их нет в достаточном количестве.
Там немного другая история. Там был большой маркетинг, как в конце концов выяснилось, обман. За это уволили главу данного направления, а потом проект в первоначальном виде прикрыли. Суть проекта - выдавать врачам-онкологам рекомендации по лечению на основании данных из научных публикаций. На самом деле все рекомендации были клиническими рекомендациями одного из онкологических центров США (то есть просто написанные врачами). То есть Ватсон конечно искал информацию о лечении в Интернете в научных журналах, но рекомендациями не были заключения ИИ. Хотя маркетинг строился именно на ИИ. Это все в итоге вскрылось и проект провалился.
Спасибо. Здесь показатели исключительно общего анализа крови. Я вам как врач-гематолог быстрее скажу, что в ваших анализах так или не так). Но вот если развивать проект в сторону пользователей, то тестер был бы полезен с точки зрения юзабилити, вида информации, которая ему нужна и т.д. Но здесь также потребуется и IT поддержка в команду.
Тут скорее в перспективе проект для медиков (не гематологов). Вывод сделан специально сейчас в виде текстового сообщения. Конечно, все можно заменить формальными классами, к каждому из которых можно прикрутить любой текст рекомендаций. Если делать что-то для немедиков (да и для лабораторий), и превращать это в стартап, мне нужна IT поддержка.
Тесты показывают, что для решения своей задачи, а именно пересказ английского текста на РУССКИЙ гига чат справляется хуже, чем несколько простых бесплатных западных моделей, которые на РУССКОМ строят предложения лучше (не без косяков, но в целом лучше), а на английском и подавно.
Спасибо) Технические да. Эксперименты показали, что нужно больше разнообразных и качествнно размеченных данных для улучшения моделей. На это нужны ресурсы и время. Пока занят несколько другим
На паузе. Ссылку обновил.
Вопрос о некомпетентности расценивается мною обычно как объявление войны. Думаю, вы это сказали просто так в рамках рассуждений. Я просто сразу предупреждаю, можете расценивать это как хваставство (просто так быстрее, хотя и некорректно, обозначить позицию), но мои знания в моей профессиональной области одни из лучших в этой стране. Доказывать я это в Интернете не собираюсь, есть много людей, которые это подтвердят. Я не делаю систему поддержки принятия решений. Я не пытаюсь ставить диагнозы по ОАК, вы видимо не до конца поняли в чем идея. Кратко: это просто НИР. Все ассоциации, тем более в нашей стране, это очень консервативные и бюррократизированные организации, которые не согласятся ни с чьим тезисом, касающимся инноваций. Доказывать подобным структурам я ничего не собираюсь и другим не советую. Но помнится несколько лет назад мои тезисы про то, как нейронная сеть интерпретирует ОАК были без проблем опубликованы в сборнике конференции от данной ассоцииации. Так что бывают исключения. Результаты и время сами все расставят по своим местам. Алгоритм действий при подозрении на диагноз не равно диагностические критерии этого диагноза, поэтому это к делу не относится. Я работаю на результат. Если что-то дает результат, значит это что-то работает. Если кто-то не понимает как и почему, извините. В мире очень хорошо понимают, у нас вечная проблема с пониманием, может поэтому и отстаем даже от стран Африки в подобных вопросах. Вам спасибо за комментарии, надеюсь мой ответ не будет расценен на личный счет. Ничего личного, я не сторонник перепалок, мне неинтересны споры, только научные дискуссии. Удачи!
Если бы были четкие формальные алгоритмы, машинное обучение было бы не нужно. Дело не в картинке выше, дело в приниципе в отсуствии строгих формальных правил и/или в необходимости других данных, кроме ОАК. На той же картинке выше много других анализов, кроме ОАК.
Это учебные алгоритмы, мало имеющие общего с реальностью. Ничего абсолютного, как показано стрелочками, в реальности нет
Спасибо. Понимаю о чем вы, но пока не умею.
Спасибо за статью, есть над чем подумать, в частности над методологией. По сути это разновидность бэгинга. Вопрос: можно ли представленный вами способ поиска порога заменить на поиск через ROC-анализ? Комментарий: независимо от метода, порог не будет являться стабильной величиной. Можно высчитать порог, который идеально будет делить данные, но в реальности он будет иметь интервал неопределенности (это можно показать через бутстрэп), что приведет к невозможности его использования. Если порог зафиксировать, метрики модели (чувствительность, специфичность..) будут тоже меняться от выборки к выборке. Возможно порог, как правило для принятия решения следует находить не через статистику (потому что ML делает практически тоже самое), а через эмпирический подход и знания предметной области, если это возможно.
Я бы так не сказал, что все лабораторные анализы легко формализовать, особенно ОАК, где много параметров. Например, железодефицитная анемия (самая часта форма анемии) не может быть абсолютно формализована показателями только ОАК. Даже если попытаться, то это будут несколько не всегда очевидных правил. Я делал аналогичный проект с большим числом других анализов, основанный на правилах. Отклонение параметров от нормы видно по референсам, как правило, они подсвечены (можно добавить в сервис). Строгий алгоритм нужен, если мы ставим окончательный диагноз и то не всегда. Здесь цель - заподозрить редкие заболевания крови человека в большом массиве данных и вовремя направить к конкретному врачу-специалисту (гематологу), тем самым сократив маршрутизацию больного, снизив время до постановки диагноза. По сути задача триажа. Случаи с подозрением на серьезные проблемы должны рассматриваться в приоритете. В Европе, например, компания Sysmex курировала проект (не знаю как сечас), где подобная аналитическая система работала в большом лабораторном хабе, который делал анализы из разных стран. В их рекламном ролике как раз был показан случай выявления заболевания крови у пациента, который пришел на прием к офтальмологу. ОАК был назначен планово перед операцией на глазах. По собственному опыту знаю, что терапевты часто направляют к гематологу с заключениями по ОАК, которые на самом деле не соответсвуют действительности (не видят истинную проблему, иногда ее нет и др.). Соглашусь, что это не самая актуальная задача, котороая может решаться ML. Она выполнялась в рамках НИР, для нее были доступны данные. Есть более актуальные задачи, да, но нет данных.
Вы не прочитали самую верхнюю строчку, "Введите реальный ОАК". Вы вводите нереальный ОАК и получаете нереальный ответ. Все просто. Нет смысла вводить то, что не может существовать в природе и делать на этом какие-то выводы. И я еще раз повторюсь, это не продукт для пользователя в Интернете, да и вообще пока не продукт, а результат НИР.
Спасибо, что не поленились написать такой длинный ответ. Я конечно же ничем не принебрегал) Если вы о том, что я прямо сейчас не редактирую статью, то не планировалось, максимум опечатки. Это научно-исследовательская работа как можно работать с медицинскими таблично-структурированными данными на примере ОАК. Вы и другие пишут пожелания уже к продукту. Я все это понимаю и даже знаю как может выглядеть конечный продукт как для врача, так и для пациента. Но продукт надо делать. Как я указал в начале, я не программист и у меня много другой профессиональной занятости. Для продукта мне нужна команда, хотя то, что есть, можно бессомненно улучшить. Ну и еще про врачей. Вы наверное не знаете просто, но среднестатистический врач-терапевт часто не может правильно расшифровать ОАК. У текущей версии сервиса не бинарная модель, в ней 9 классов со своими заключениями, некоторые редки, но говорят о серьезных заболеваниях. И еще, просто поверьте моему врачебному опыту, не редки случаи, когда пациент приходит к тому же гематологу на диагностику, а изменения в ОАК у него по данным амбулаторной карты уже как год, а то и дольше. Есть такие болезни. Тысячи анализов как и других медицинских данных возможно перегонять через умные скрининг системы, есть такие проекты в Европе, например. Я все комментарии внимательно прочитал, на многие ответил, в том числе и на ваш. Все будет учтено по мере моих сил и возможностей!
На правилах я тоже делал. Да, все объяснимо что и почему, но часто очень громоздко получается. Некоторые вещи при описании булевой логикой приводят к очень сложным правилам. С анализатора в лабораторную информационную систему выходят столько параметров, сколько запрограммировано. Есть краткие ОАК (5-6 параметров), есть развернутые - 25 параметров и выше, смотря что назначил врач. Модель сейчас обучена на развернутых ОАК (со всеми параметрами сразу), с краткими она работать откажется из-за нехватки данных.
Это хороший вопрос. На результат анализа, несмотря на все меры стандартизации, будет влиять оборудование, на котором он сделан. Есть много разных гематологических анализаторов разных производителей. Они могут выдавать измерения с некоторыми колебаниями относительно друг друга. С другой стороны диагноз какого-либо заболевания от этого не зависит. То есть, если анализ плохой, то плохой, независимо в какой лаборатории он сделан. Чтобы лаборатория откровенно выдавала ошибочные данные это вряд ли, все же есть служба контроля. Но модель может быть все равно чувствительна, поэтому нужна внешняя валидация. Проверка моделей на данных из других медицинских центров, например.
В ML это не совсем так. Вполне можно и часто даже нужно комбинировать или изменять существующие переменные в наборе данных с помощью арифметических операций. Этот процесс известен как feature engineering. Создавая новые переменные, можно потенциально повысить производительность своей модели. Модели ML не обязательно должны логически объясняться (черный ящик), скорее наоборот. Часто логика, что убрать, а что оставить там не срабатывает. Так можно в итоге дойти до простого алгоритма на правилах. Даже в простой логистической регрессии я могу умножить одну переменную на другую, создав третью, и тем самым улучшив модель. Но я не исключаю возможность упрощений. Уже были убраны несколько параметров, которые были изначально. Но весь этот поиск, эксперименты и переобучение требует немало времени. Поэтому в новой версии, я думаю, это возможно, но не быстро.
Спасибо, обязательно учту ваши пожелания в продолжении темы, в новом посте. Сервис показал свою работоспособность в ходе строгой внутренней валидации. Мне нужны данные для внешней валидации, пока их нет в достаточном количестве.
Не знаю. Может что-то не понравилость на стороне shiny сервера. Это вне моей власти)
Там немного другая история. Там был большой маркетинг, как в конце концов выяснилось, обман. За это уволили главу данного направления, а потом проект в первоначальном виде прикрыли. Суть проекта - выдавать врачам-онкологам рекомендации по лечению на основании данных из научных публикаций. На самом деле все рекомендации были клиническими рекомендациями одного из онкологических центров США (то есть просто написанные врачами). То есть Ватсон конечно искал информацию о лечении в Интернете в научных журналах, но рекомендациями не были заключения ИИ. Хотя маркетинг строился именно на ИИ. Это все в итоге вскрылось и проект провалился.
Favicon добавил, а вот по ошибке ничего сказать не смогу без понимания при каких условиях она наступила
Спасибо. Здесь показатели исключительно общего анализа крови. Я вам как врач-гематолог быстрее скажу, что в ваших анализах так или не так). Но вот если развивать проект в сторону пользователей, то тестер был бы полезен с точки зрения юзабилити, вида информации, которая ему нужна и т.д. Но здесь также потребуется и IT поддержка в команду.
Тут скорее в перспективе проект для медиков (не гематологов). Вывод сделан специально сейчас в виде текстового сообщения. Конечно, все можно заменить формальными классами, к каждому из которых можно прикрутить любой текст рекомендаций. Если делать что-то для немедиков (да и для лабораторий), и превращать это в стартап, мне нужна IT поддержка.