Комментарии 3
Сам формат PDF конечному читателю удобен, но с точки зрения парсинга, я бы PDF запретил на законодательном уровне.
Так в официальном же рубрикаторе от Минздрава https://cr.minzdrav.gov.ru/clin-rec есть сортировка по возрастному критерию (дети, взрослые, взрослые+дети), по диагнозу МКБ-10, дате размещения КР, статусу КР. А если открыть не pdf, а просто кнопочку нажать "открыть" на страничке самой КР, то рекомендации будут в html-формате. Сами КР имеют удобное оглавление, позволяющее переходить сразу к диагностике, лечению и т.п.
У нас на работе не были PDF, которые были удобнее для печати. Нам слали docx, что по сути тот же самый PDF, но его можно передалать для чтения. Но в документах не это важное. Всё было оформлено по стандратам. Введение, зачем документ, сам документ канцелярским языком, заключение, список кокращений и прочая хрень. Т.е. там документа на 1 страницу обычного печатного текста, а, по факту, там листов 20-30. Видимо какого-то родственника наняли, чтобы эти документы делать. И документы были вроде того, как инженер должен заходить в хату. Не в смысле тюремного. Как в дом зайти к абоненту. Куча текста, информации полезной никакой.

Рубрикатор клинических рекомендаций Минздрава РФ: почему врачу неудобно работать с PDF