Комментарии 7
А чего ради все эти приседания? Через месяц верстку поменяют (а это часто случается) и все, приложуха мертва или работает коряво. Вы прям готовы каждый день проверять не «поломали» ли верстку на сайте? Раньше были сотни парсеров инсты и автопостинг и еще куча плюшек, так они жили неделю и потом разрабы неделю парсер правили под новую верстку. В итоге все это оказалось никому ненужным мусором. Парсинг на долгосроке - вещь не очень надежная.
Вообще, сейчас ИИ хорошо справляется с задачей "вот тебе несколько примеров HTML, напиши скрипт на Python, который выдирает вот такие то данные". Чисто write only решение без архитектуры. Когда вёрстка меняется просто перегенерируешь парсер с нуля на новых образцах HTML.
Единственное, что надо просить добавить в парсер детектор, что всё спарсилось, чтобы он не тихо терял данные, а полностью ломался от любого изменения вёрстки. И ты не пропустил момент, когда нужен новый парсер.
Ну если чуток поправили верстку, то, возможно AI и справится. Но вот попробуйте сетку натравить на инсту и она налажает как только сможет. А там разрабы стараются структуру менять довольно сильно. Я не о том, что это невозможно. Я про то, что поддерживают такую прилу будет крайне сложно и муторно, будет сжирать уйму времени. Вот и спросил автора: ради чего такие приседания? Денег ради или по фану?
А это единственный вариант. Можно, конечно, 5 млн. за год доступа (или на порядок больше - когда-то запрашивал прайсинг для юр.лиц). Но оно тупо того не стоит для пет проектов.
ЕИС использует три разных идентификатора для одного и того же юр.лица:
Настоящий ИНН — 10 цифр у юр.лиц, 12 у ИП. Например 7708410783
organizationId — внутренний 5-8-значный ID, например 2225253
organizationCode — 11-значный код, например 01795000003
И это не просто так — если организация имеет филиалы, может оказаться, что закупки филиала отражаются под отдельным organizationCode, но при этом собственного ИНН у филиала нет — ИНН совпадает с ИНН головной организации, ОГРН тоже совпадает, отличается только КПП. Поэтому сводить всё к одному ИНН неверно.
Покрытие НМЦК для 44-ФЗ — всего 4-5%. Большая часть аукционов публикует НМЦК как диапазон что для расчёта margin score бесполезно. Думаю где брать точные значения, пока не нашёл.
Это не слабое место, это особенности контрактной системы. Точное значение вы не найдете, так как это и есть точное значение - заказчик не может закупить больше чем максимальная цена договора. То что вы назвали
диапазоном типа “не более 1М ₽”
диапазоном не является.
Смотрите есть контракты с НМЦК в них известен объем ТРУ (товаров, работ, услуг), которые планирует приобрести заказчик.
А есть контракты, в которых объем ТРУ не известен. В этих контрактах устанавливается НМЦЕ (начальная (максимальная) цена за единицу) и поставщики торгуют именно эту цену. Но Заказчик обязан установить предельную цену закупки. Поэтому он устанавливает максимальную цену договора, которую вы и видите в виде "диапазоном типа “не более 1М ₽”.
В этом случает пусть Поставщик предложил карандаши по 5 руб. и это самая низкая цена из предложенных. Тогда Заказчик покупает у него карандаши по 5 руб. за штуку на сумму не более 100 000 руб., например.
Мы сейчас парсим информацию через другой сервис. Сейчас не помню ссылки, спрошу у наших разрабов в понедельник и напишу. Но там может возникнуть нюанс. Пока сервис бесплатный, но разработчик хочет ввести оплату 3000 руб. в месяц. Для компании, которая регулярно участвует в тендерах это не принципиально, но вот для вас.
Несколько лет делаю парсинг, верстка за это время пару раз менялась. Все отлично.

Парсил zakupki.gov.ru без API — расскажу что узнал