Комментарии 4
Было принято решение кластеризовать все тексты по их тематическому содержанию. После этого выбрать набор наиболее частых тем, которые создадут новые фичи.
Так понимаю, 7 кластеров были выбраны как основные. Что это за кластеры? И какие наиболее частые темы удалось выделить?
По поводу векторизации тоже есть вопросы.
Например, слово «Врач» и слова «лаборант», «ассистент». Они (последние слова) имеют схожее векторное расстояние с «пульмонологом», «дерматологом». То же встречается и в других словах («перенапряжение»!=«болезнь»). Кроме того, с болезнями надо быть аккуратнее, так как подходы к отнесению в эту категорию меняются. Например, диатез, если память не изменяет, перестал быть болезнью. Хорошо, конечно, что нейросеть «ухватила» суть, но доработка нужна.
После импорта журналов в текстовый формат получилась папка размером 385 МБ, а текст всех книг потребовал 26 МБ дискового пространства.
26 Гб наверно? Чем вы обрабатывали такие объемы и насколько это было долго?
Тематику можно определить опосредованно, по наиболее близким словам к центру кластеров. Вот они:
1. 'мазка', 'ковид', 'мазок', 'ротоглотка', 'осмотреть', 'отоскопия', 'носоглотка', 'бактериологический', 'цитологический', 'папаниколау'
2. 'информированный', 'согласение', 'согласие', 'договариваться', 'подписать', 'подписывать', 'огласить', 'испрашивать', 'направительный', 'анонимный'
3. 'томография', 'кт', 'рентгенография', 'грудной', 'скт', 'МСКТ', 'узи', 'мрт', 'мультиспиральный', 'ркт'
4. 'тестирование', 'тест', 'положительный', 'проба', 'ложноотрицательный', 'испытуемый', 'ложноположительный', 'отрицательный', 'кфт', 'самоотчёт'
5. 'сообщить', 'поступить', 'выдать', 'выписать', 'отобрать', 'перевести', 'обследоваться', 'емиас', 'выписываться', 'указать'
6. 'пневмония', 'вирусный', 'диагноз', 'внебольничный', 'вп', 'ковид', 'инфекция', 'сепсис', 'подозрение', 'миокардит'
7. 'гбуз', 'гкб', 'дзм', 'госпитализировать', 'долечивание', 'гуз', 'ткб', 'поликлиника', 'окб', 'больница'
Методология word2vec дает близость слов по одинаковым контекстам использования. Т.е. если два разные слова употребляются рядом с одними и теми же словами, то word2vec решит, что эти слова близки. Например, в мед. литературе вполне логично, что слова врач, лаборант, ассистент взаимозаменяемы (поскольку врач может кому- то ассистировать во время операции, а лаборант выполнять тот же нарбор действий, что и врач).
Для улучшения качества можно разве что увеличить порог учета слова (я выбрал значене 30, против значения 5, предложенного по- умолчанию).
Текст занимает очень мало места. Поэтому никакой опечатки нет: все 30 книг поместились в 26 МБ дискового пространства. И все же корпус слов, хранимый в оперативной памяти действительно вышел гигантский, в силу чего произошла нехватка оперативной памяти (даже при использовании файла подкачки).
Поэтому я "на лету" сжимал данные с помощью gzip, и также "на лету" их разжимал. Добавлю об этом в статью, поскольку при работе с word2vec абсолютно все столкнутся с этой проблемой.
Распознаем медицинские тексты