Как стать автором
Обновить

Комментарии 139

Спасибо, полезно. Сам не так давно писал парсинг данных ЕГРЮЛ :)

Молодцы! Правильные цели, я надеюсь все гос органы реализуют данный подход.

Где вы были раньше?!!

Можно многое сделать, только надо понимать зачем.

Откуда ОГРН у вас? ИНН везде. В платёжках, в реквизитах договоров, счетов, актах, счёт-фактурах, накладных. А ОГРН нигде нет. Поэтому нет и смысла в нём.

Интересно бы узнать как живут организации без ИНН. Счёт в банке они могут открыть? А платёж получить?

Если необходимость будет, то можно будет добавить. Но если её нет, то и добавлять не нужно.

Я занимаюсь аналитикой маркетплейсов. Если, например взять WB, то у огранизаций прописан именно ОГРН, а у ИП - ИНН.

Конечно, можно сделать предварительную работу - по ОГРН найти ИНН. Но если бы Ваш сервис предоставлял делать это напрямую, было бы легче жить )

Ок, раз WB такой кривой, то сейчас сделаю. Благо они хоть все разной длины 10, 12, 13 и 15 символов.

Сердечно благодарю Вас!

Да, заработало!

Спасибо за оперативность!

У организации может быть один ОГРН, но несколько ИНН, т.е. ИНН присваивается налоговой по месту уплаты налогов, а не по нахождению юрлица.

Я видел обратную ситуацию. Все остальные поля там совпадали.
Если у организации несколько инн, то у нас она будет отдаваться под каждым из этих ИНН.

Косяки в государственных базах есть всегда.

Вроде бы для разных мест уплаты налогов ФНС присваивает разные КПП, а ИНН у организации всегда единый

Они парами присваиваются. Поэтому в другом регионе компания может получить другой ИНН с другим КПП. По КПП можно понять, какой из ИНН основной.

Если только в качестве ошибки

Не может. Можете предоставить что-то в подтверждение ваших слов?

Хм. Не могу. Перерыл Интернет, нашел только, что филиалу назначается тот же ИНН с другим КПП. Каких-то примеров, что это не так, не нашел. Так что@fn986, видимо, прав.

Наверное мое понимание несколько устарело.

Вы не путаете ли ИНН с КПП?

Зарабатывали 150 000р, чтобы купить данные. :)

Было бы ещё неплохо получить список всех ИНН.

Можно, но для чего?

Чтобы зарегистрировать красивый ИНН 😂

Шестизначный

Ну если прошлогодний устроит - то вот у Росстата имеется.

Выложим мы тоже чуть позже. Даже думаю в формате ogrn,inn,lastmodified.

Несколько замечаний:
1. Как часто обновляются данные? Учитывая что ежедневно обновляются данные по десяткам тысяч фирм, разово скачанный массив за пару месяцев превратится в тыкву.
2. У ЕГРЮЛ сейчас есть две версии - 4.05 и 4.06. Основное отличие в том, что в версии 4.06 появился элемент "Сведения об адресе юридического лица (в структуре ФИАС) <СвАдрЮЛФИАСС> "   ("Может отсутствовать, если сведения внесены в ЕГРЮЛ до вступления в действие новых форм по регистрации ЮЛ, в которых адрес указывается в структуре ФИАС и ранее внесенный адрес в структуре КЛАДР не был сконвертирован"). В приведенном примере двух версий XML-файлов этот элемент отсутствует в новой версии.
3. Действующая версия 4.06 будет действовать неопределенно долгое время, до появления следующего приказа об изменении формата. С первого апреля прекращается выгрузка данных в формате 4.05.
4. По обработке новых реестров данных - предлагаю для начала предоставить бухгалтерскую отчетность юрлиц из ГИР БО (https://bo.nalog.ru/) - доступ платный - 200000 р. в год. Данные отдаются по API (https://bo.nalog.ru/REST_API.7z).
Бухгалтерская отчетность до 2018 года включительно доступна для скачивания на сайте росстата бесплатно: https://rosstat.gov.ru/opendata?division=&tag=13&updated_from=&updated_to=&search=&search_by_name=on&sort=&per_page=10 в формате csv.

  1. Ежедневно. Могу и 2-4 раза в день прописать в crontab.

  2. 4.05. Значит он отсутствует в архиве из папки EGRUL_406/

  3. Ну вот тут может есть некоторая путаница. Но они не сильно отличаются. В общем не проблема спарсить EGRUL_406/

  4. А какой в ней смысл? Обороты, налоги доступны у нас. А детальный бухбаланс зачем? Если кому надо, то ручками его сможет там получить. Но если надо, и если будут деньги, то сможем прикрутить. У Росстата скудные данные. Данные по доходам и расходам я оттуда загрузил.

По ссылке на росстат лежат файлы csv с полными балансами и отчетами о прибылях и убытках по всем предприятиям, включая формы 1,2,3,4 и 6.
Данные с доходами и расходами полагаю были взяты из раздела открытых данных ФНС https://www.nalog.gov.ru/opendata/ в разделе 76 (там же лежат и данные по налогам и количеству сотрудников).
Полный баланс может и не обязателен, а вот суммы выручки и чистой прибыли/убытка из отчета о прибылях и убытках могут быть интересны.

Данные по доходам и расходам у нас с 2011 года. И как раз из Росстата.

Лежат, но там нет расшифровки по всем полям. Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны. Из этих данных нужна какая-то выжимка. От задач нужно идти. А просто дублировать зачем?

Скачал обновленные версии файлов - они действительно убрали заголовки полей
Рядом с файлами лежат файлы с описанием структуры данных вида

"Структура"

"structure-20181231.csv" - из него для строки вычисляется номер поля.

Расшифровка там предельно простая - первая цифра номер формы - "1" - баланс, 2-"отчет о прибылях и убытках" и т.д. Дальше номер строки баланса. Последняя цифра - 3 - значение за текущий отчетный период, 4 - за предыдущий очтетный период.
Полезная выжимка - это значения 21103 - выручка и 24003 - чистая прибыль

Спасибо. Потенциально буду иметь в виду.

Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны.

Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся. Что позволяет потом показывать рейтинг финансовой надёжности контрагента в каких-нибудь условных попугаях.

Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный. То есть не решена эта задача у тех, кто уже много лет торгует API ЕГРЮЛ.

Мы тут открыты к сотрудничеству. Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей. Но только если это будут показатели. В бухбалансах много дутых данных. Бугхалтерию можно и так и сяк, и в убыток и в прибыль сверстать в зависимости от желания.

Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный.

А тут разные задачи. Есть задача "прикрыть задницу" - она этими попугаями решается. Т.е. если налоговая при очередной проверке пытается квалифицировать твоего контрагента как одноневку/техничку и исключить из расходов платежи в его адрес - ты вытаскиваешь отчёт с этими попугаями и говоришь "вот, смотрите, ничто не предвещало, я добросовестно проверял". И это в общем работает.

А если задача проверить по существу (аванс выдаём или там покупать вообще эту контору собрались) - она анализом отчётности по РСБУ не решается в принципе, ибо отчётность эта лукава.

Есть ещё более узкие случаи - скажем, при банкротстве проводится анализ признаков фиктивности или преднамеренности оного, в котором эти данные тоже участвуют (и по сути тоже бред получается, но методика нормативно закреплена и делать надо именно по ней, а не иначе).

Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей.

Я думаю, эта задача должна решаться не Вашим сервисом, а его пользователями. Каждый для своих задач решит, как ему и что считать. У меня, скажем, привязка будет ещё и к внешним данным. Я это всё только про то, что данные ГИР БО нужны и полезны отнюдь не одному проценту.

А есть реестры этих данных после 2018 года бесплатно?

Увы, нет, как раз из-за появления ГИР БО, о чём и речь.

А у ГИР БО ещё более странная ценовая политика, чем у ЕГРЮЛ/ЕГРИП. Данные по отношению к самим реестрам вторичные, но стóят ещё дороже.

Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся.

Задачу оценки контрагента логичнее начинать например с банка решений арбитражных судов - kad.arbitr.ru (кстати эти базы тоже продаются). А оценивать его надежность по данным балансов, которые публикуются со значительной задержкой, и отдельные показатели которых можно специально подогнать под момент сдачи отчета, очень спорное решение.

См. мой комментарий чуть выше по ветке. Зависит от того, какая ставится задача. Для "прикрытия задницы" вполне источник, наряду с прочими. Для временного управляющего, который пришёл в наблюдение по делу о банкротстве, так просто вариантов нет - даже если понимаешь, что в балансе бред, изволь оценивать по балансу :)

Вообще, действительно качественные выводы можно сделать по анализу банковских выписок за последние года три, но кто ж их в большинстве случаев даст :) Поэтому и приходится собирать по кусочкам. КАД и ГАС Правосудие - источники хорошие и нужные, но (а) гораздо более труднодоступные для автоматизированного анализа (да и для ручного зачастую) и (б) подавляющее большинство юр. лиц за всю свою историю в сколько бы то ни было значимых судебных процессах не участвуют вообще, однако ж это тоже не признак их благонадёжности. Так что смотрим и их, и бухотчётность, и ещё БД исп. производств ФССП, ЕФРСДЮЛ и ЕФРСБ Интерфакса, реестры проверок прокуратуры, реестры массовых, дисквалифицированных, недоимок и нарушений ФНС, закупки и т.п. Короче, до чего дотянемся.

Весь бизнес агрегаторов этой информации: Спарк, Коммерсантъ.Картотека, Контур.Фокус, Руспрофиль, ЗаЧестныйБизнес и иже с ними - на этом и построен. Ну и каждый из них пытается какую-то формулу благонадёжности вывести, учитывающую разные факторы. Анонсированный тут проект от ITSoft, наверное, сможет со временем вырасти в такой же агрегатор. Но не этим он интересен, а тем, что может стать источником исходных данных для других. У агрегаторов по понятным причинам API сильно ограничен по кол-ву запросов и кусается по цене.

P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...

P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...

Так расскажите.
А право.ру базами КАД неофициально торгует?

Ну тут это уже оффтопик, но если тезисно:

  1. Право.ру официально не продаёт выгрузки, но продаёт API.

  2. API это с такими зверскими тарифами и лимитами, что я 2 года назад считал - по их тарифу выгрузить весь КАД (если вообще скорость работы с API позволит это сделать) стóило бы 62 млн.₽. Т.к. база с тех пор изрядно подросла - сейчас ещё выше.

  3. Даже по этим тарифам они продают API только конечным пользователям - корпоративным заказчикам. Для разработчиков рыночных продуктов (а особенно конкурирующих с продуктами Право.ру) они API не продают вообще.

  4. Ввиду п.п. 2-3 те, кому КАД нужен в оптовых количествах (те же Интерфакс, Коммерсант, Руспрофиль) или заранее скачанный (например, для какой-то аналитики) договариваются с ними на непубличных условиях. У кого-то есть политический вес, у кого-то - другая информация "в обмен", у кого-то много денег, наверное - не знаю, свечку не держал.

  5. При этом с парсингом КАД борются жёстко, там не просто капча, там всё по-взрослому :)

  6. Несмотря на п. 5, есть ребята, которые поддерживают "альтернативное" API, основанное на парсинге в обход ограничений и даже официально его продают. Право.ру вынуждено с этим мириться, т.к. заказчиками этого API является несколько весьма крупных компаний, а обострять ситуацию им не хочется, ибо см. следующий пункт.

  7. Самое интересное в этом всём то, уже несколько лет нет никаких оснований, по которым коммерческая организация Право.ру являлась бы оператором государственной информационной системы КАД. Действовавший договор закончился, новый не заключён. Но поскольку бюджета на то, чтобы эту ситуацию изменить, у Суд. Департамента нет (да и желания что-то менять - тоже), то такой вот статус кво сохраняется.

Если интересны дальнейшие подробности - то уже в личку, сорри :)

отличаются существенно. По крайней мере версии для ФОИВов. +Там вместо КЛАДР используется ФИАС. И много новых расширенных сведений.

Также Ваш реестр из ФНС не учитывает ТОПы, которые ведутся только в Росстате.

ИНН и ОГРН по отдельности не являются уникальными идентификаторами. Уникальным идентификатором объекта учета является ОКПО.

Я бы с радостью оплачивал за 300-500 рублей в год доступ к простому сервису с 2 функциями: поиск связей (достаточно по учредителю и гендиру) с каким-либо ограниченем типа 100-500 запросов в месяц.

То что есть на рынке при всей своей простоте или комбаин за овердофига денег или "работаем только с юридическими лицами"

По руководителю и учредителю физлицам связи у нас есть. По юридическим лицам в планах.

это сведения по данным ФНС. Они не обновляются. И реального владельца, особенно акционерного общества, знают только держатели реестров. Т.е. эта информация особо Вам ничего не даст.

Я правильно вас понял, что загружены все ИНН по всем регионам?

Не нашёл свой ИНН...

Должно быть всё загружено. Дайте ваш ИНН, можете в личку прислать.

Это ИНН ИП. Тут ЕГРЮЛ. На данные ЕГРИП надо 150 000р. Надеюсь задонатят, спонсоры придут или кто-то что-то закажет на коммерческой основе, тогда сможем купить эти данные.

И в ЕГРИП ничего кроме ФИО нет. Толку от него мало. :(

Ну почему же, там есть данные об открытии, закрытии ИП. Это тоже нужно.

И как раз хотел об этом спросить, т.к. заметил, что по ИП данных нет, а они нужны. Не знал, что налоговая два реестра продаёт. На их сайте и ЮЛ и ИП в одном разделе ищутся.

Процедура покупки данных ИП у налоговой запущена.

Если вам интересно стать спонсором проекта egrul.itsoft.ru — пишите, обсудим условия или просто пожертвуйте сколько не жалко на карту 5536 9141 0700 1889.

@itsoftСборы пожертвований в первую очередь и пострадает от недавно обещанных нововведений: https://habr.com/ru/news/t/650103/

Почему? Делать пожертвования никому не запрещают. То что налоговая может спросить у получателя что за деньги -- ну может, пусть спрашивает.

НЛО прилетело и опубликовало эту надпись здесь

Не могут заподозрить. Доступ к намм бесплатеый, а пожертвования на совести, желании и возможностях людей. Бывает жертвуют те, кто не польщуется, просто в поддержку перемен.

Очень полезная инициатива! Конечно было бы совсем здорово, если бы это было официальное API от ФНС, может быть когда-нибудь так и будет.

Особенно радует, что нет необходимости регистрироваться и получать api-токен. Думаю прикрутить к своей open-source надстройке для Excel запрос информации через Ваш API, думаю может быть полезным пользователям (необходимость авторизации закроет такой вариант, так как запросы идут с компа пользователя).

P.S. любопытно, что все примеры ИНН в статье - принадлежат 34-й инспекции по Москве, где я проработал 3 года инспектором-камералом))

Да это просто результат копирования мышкой. Там их сильно больше. Но для сравнения форматов нужно было сколько-то дать, ну вот мышкой скопировал. :)

Поясню тем кто не в курсе. Первые 4 цифры ИНН (за некоторыми исключениями) соответствуют коду налоговой инспеции, где лицо было зарегистрировано впервые (из-за смены адреса лица этот код может не соответствовать инспекции, в которой лицо состоит на налоговом учете в текущий момент, но это можно узнать из КПП). Причем первые две цифры этого кода - соответствуют коду региона - по всем знакомому справочнику автомобильных регионов. Например, в ИНН 7734344833 код инспекции - 7734, где 77 - это г. Москва, 34 - номер инспекции.

Также в ИНН есть проверочные цифры, для ЮЛ это одна последняя цифра в 10-значном номере, для ФЛ - две последние цифры 12-значного номера.

Ещё бы это богатство в модном Apache Parquet с фильтром по региону забирать [мечтательно...)))] вместо запросов по отдельным ИНН! Огромный респект за проделанную работу!

Фильтр по региону мы можем сделать. Только поясните почему вам данные только в рамках региона нужны? Какую задачу вы решаете? Регион есть в составе ОГРН, косвенно ИНН и в адресе. И адрес по региону не совпадает с кодом региона в ОГРН, если юрлицо переехало в другой регион.

А вот Apache Parquet  -- это вы уже сами подключайтесь.

Господи, какой вы молодец! Прометей! Робин Гуд! Чак Фини!

Как приятно когда наконец появляется причина написать искренние комплименты, а не сарказм или возмущение.

Спасибо. :)

Совет вам по заработку. Можете генерить все ИНН, например по ОКВЭД, по запросу за небольшие деньги по подписке. Например чтобы коммерсы могли иметь картину по конкурентам.

Наверное, у 90% ОКВЭД из регистрационных документов не соответствует факту. Или там написаны десятки ОКВЭДов, по которым деятельность не ведется. А еще есть дублирование ОКВЭДов... В общем, идея пригодна только для узкого круга видов деятельности, например, для тех, которые обязательно лицензируются.

за основным ОКВЭД надо идти в Росстат.

В егрюл есть основной и дополнительный.

Да. Но кодов ОКВЭД ведется несколько, например:

ОКВЭД осн.рег - это основной код из выписки ФНС, заявленный ЮЛ

ОКВЭД доп.рег - это дополнительные коды из выписки ФНС, заявленные ЮЛ

ОКВЭД осн.факт. - это основной код, присваемый Росстатом и актуализи руемый раз в год на основе отчетности ЮЛ

ОКВЭД доп.факт. - это дополнительные коды, присваемые Росстатом и актуализи руемые также раз в год на основе отчетности ЮЛ

Есть еще расчетный ОКВЭД, который используется для внутренних нужд Росстата.

Спасибо! Категорически нужная штука. Не боитесь, что желающие сэкономить денежку на API Спарка/Картотеки/Фокуса/Дадаты Вам сервер положат очень быстро? ;)

Насчёт истории ЕГРЮЛ - там мутная тема. По приказу самой ФНС о порядке предоставления этих данных, они должны предоставляться с начала ведения реестра, то бишь с 2002 года. По факту данные неоднократно "обрезались" и если пару лет назад доступ был к данным с 2015 года то теперь, получается, уже с 2018. Соответственно старые данные есть у тех, кто начал их покупать давно и прилежно сохранял. Когда я интересовался - мне поступило пара предложений продать историю ЕГРЮЛ за деньги, несопоставимые с официальным прайсом (в сторону роста цены, само собой). Было бы прекрасно, если бы Вы нашли кого-то, кто готов поделиться нажитым за все эти годы с коммьюнити. Если есть желание формально юридически поругаться с ФНС - основания есть, пишите в личку, помогу, я так-то юрист :)

Ну а если про свои хотелки - API для разовых запросов хорошо, а полная выгрузка лучше. Потому что есть задачи, для которых нужен заранее построенный граф по всему реестру (анализ аффилированности прежде всего). Если бы Вы предложили возможность выгрузки полных данных и ежедневных дельта-обновлений, пусть не бесплатно, но дешевле тех самых 150 т.р., с удовольствием бы воспользовался.

Они уже убрали 2018-2020 годы, но ТП мне сказала, что у них данные с 2002 года, и она видит их в архиве. Запись разговора есть. Так что если данные не дадут, мы пойдём в суд как с ВТБ.

Мы готовы предложить. Сейчас продумываю как это сделать.

В составлении официальной претензии / заявления в суд и сопровождении процесса готов поддержать, пишите в личку, если интересно. Собирался этим заняться сам в ближайшее время, но раз Вы уже начали - то лучше на Вашем случае и делать прецедент. Я работаю с очень хорошими и дорогими юр. фирмами, так что за качество с этой стороны ручаюсь.

Вы бесплатно готовы помочь или сколько нужно денег? Денег у нас, как понимаете, нет.

Бесплатно. А денег я Вам там уже даже подкинул немного :) Посмотрите личку.

Супер. Тогда можно начинать. Я завтра сделаю ещё звонок в ТП, если они данные не дадут, то пишем официальную претензию и подаём в суд.

Спасибо огромное!

Как там ВТБ, чем всё закончилось?

Думаю решение в силу вступило. https://habr.com/ru/company/itsoft/blog/589037/
Надо исполнительный лист получать и списывать.

Мы ещё паровозом 50к на юриста отсудили. Конечно, суд занизил в два с лишним раза наши расходы.

Ну и по-моему там ещё дополнительно на ВТБ подали за комиссии 127к.

Так что двигаемся.

По поводу аффилированности я лет пять назад писал для ФНС-а программу которая готовила им кандидатов для камеральных проверок, как раз на основе ЕГРЮЛ-а и ещё нескольких публичных источников данных. Впоследствии пытался сделать централизованный сервис для коммерческих структур который позволил бы им гораздо проще кооперироваться. Осталось довольно много наработок, готов принять посильное участие в проекте если наберётся достаточное количество единомышленников.

Суппер! Готов буду пообщаться недели через две. Пока загружен обработкой данных и ЕГРИП там на подходе надо выложить. Как завершу, так сможем взяться за анализ данных.

Добрый!

Две недели прошли.

Теперь после войны. :(

С 2018 года можем сделать. Архивы есть. Через пару недель расскажу. В БД всё не спарсить, там очень много данных в иерархии. Основное выложим в CSV, а остальное утянете сами из xml, json.

много данных тесмтами

Каких? И какой объем сейчас всей этой пакости? Может поразвлекаюсь когда время появится с заталкиванием в PostgreSQL, единственное над форматом надо будет серьезно подумать, чтобы обновлять быстро. Хотя, это все таки OLAP, можно взять колоночные хранилища.

Там в иерархию уходят разные данные. Запихтвать их топорно ключ, значение в бд смысла мало.

11401720 уникальных ОГРН.

Относительно скоро выложим данные, так что через пару недель сможете.

Куда это запихивать - зависит от задач. Для моих, скажем, прежде всего в Neo4j :)

По закону об открытых данных ФНС конечно должна все бесплатно выкладывать. Оно кстати есть бесплатно, но по одному ИНН.

https://bo.nalog.ru/

Все что более одного за час вылазит капча.

Почитайте Постановление Правительства РФ от 10.07.2013 N 583 (ну и базовый Федеральный закон от 09.02.2009 N 8-ФЗ) на тему, как это должно выглядеть. Но там всё заточено на существование Открытого правительства, которое и должно было этим заниматься (и на каком-то этапе занималось-таки). Но поскольку проект этот сошёл на нет, руководитель его в местах не столь отдалённых - то тема практически заглохла и если где-то и движется - то исключительно по инерции.

С законодательством об открытых данных у нас всё грустно. bo.nalog.ru и egrul.nalog.ru - это тоже не открытые данные. А вот отчётность 2012-2018 г.г., которую выкладывал Росстат- открытые.

А почему json отдаётся с Content-Type: text/json, если mime-тип у него application/json?

Косяк. Исправил.

В случае возможных блокировок милости просим хоститься в Yggdrasil и i2p :)

А с чего нас должны заблокировать? Хотя в России да и в мире был бы человек - раз и фашистом-террористом назовут.

Банки (да и не только) очень любят анализировать группы компаний. Если сможете проделать аналитику по собственникам, найти общих собственников с долями >=25% , или >=50% , то эту информацию банки готовы будут покупать)

Добавьте туда ещё данные по выручке, численности компании, итд (это ещё + сколько-то денег в ФНС занести надо), и вы станете конкурентом Спарк-Интерфакс и HumanFactor (dadata.ru) :) А может и уже стали...

Спасибо вам огромное!

Выложите сами архивы или карту сайта, чтобы получить список всех доступных инн.

Скоро выложим. Но для этого надо подготовить и выложить на раздачу первый архив всех данных, чтобы нам сервер не положили качая по одной организации 11 миллионов организаций. Всё будет.

Может в вики положить или поговорить с https://t.me/begtin чтобы на своих ресурсах выложил ?

Бегтин считает, что нет реальной пользы: "На Вас уже ссылались коллеги в чате. Запрос - это хорошая инициатива, а в остальном больше похоже на Ваш маркетинг чем на реальную пользу." https://t.me/begtinchat/26605

Кстати да, я бы тоже забирал архивами, так как давно есть их парсер с переводом в postgres формат.

Хорошо.

Кстати да у меня тоже с архивами до 2018 вопрос был - а где они?

В налоговой, но недоступны. Уже там нет и 2018-2020 годов. Будем судиться с ФНС России.

Похоже ребята из спарка/контура/руспрофиля подёргали свои связи в налоговой что тут у них хлеб отбирают :)

По поводу депутатов и законодательных инициатив. Есть уже, наверное, целый список всевозможных указов/поручений/призывов президента о необходимости повышения производительности труда (в т.ч. "на основе передовых технологий"). Правительство разные там планы мероприятий и прочие бумажки в этой связи, вроде как, разрабатывало. Но видимо, по какому-то странному стечению обстоятельств ни кому из чиновников пока и в голову не пришло, что простое сокращение затрат бизнеса (будь то затраты человеко-часов или прямые финансовые затраты) на получение различных данных от госорганов способно повысить производительность труда того самого бизнеса.

К чему я. Наверное, стоит просьбы о подобных инициативах осуществлять в контексте тех самых указов/поручений президента о повышении производительности труда. Вроде: «во исполнение указа такого-то … просим, значит, раздавать то-то и то-то впредь даром, в удобном виде и всем желающим …».

Не питаю каких-либо иллюзий на данный счет, но лишний раз вопрос поднять полезно…

Хорошая идея. Добавлю во исполнение поручений президента рф... :) это может на некоторых подействовать как удав на кроликов. Надо будет у Рамзана Кадырова ещё поручения поискать, тогда вообще пердаки загорятся...

Очень крутая вещь, спасибо большое. По работе и учёбе регулярно нужно находить подобные данные, но даже за деньги (небольшие) очень тяжело найти. Закинул небольшой донат и расшарил по всем знакомым, которые тоже сталкивались с такими задачами)

Есть небольшой прикладной вопрос

А можно ли попросить выгрузить информацию по организациям с определённым кодом ОТКМО? Гипотетически, можем спарсить сами, но, чтобы не нагружать лишний раз сайт, может так проще будет)

В ЕГРЮЛ нет ОКТМО https://rosstat.gov.ru/opendata/7708234640-oktmo

Есть привязка с территории через КПП и адрес.

Но такие специфические задачи вы уже сами пишите или за дополнительную плату. Данные выложим через пару недель.

Понятно, спасибо!

Доброе дело.

В этом смысле ФНС стоит равняться на коллег из национальной системы аккредитации, реестры которой одно время были открыты, затем закрыты, но теперь снова доступны в виде csv выгрузок

https://fsa.gov.ru/opendata/

"КодОКВЭД":74.200000000000003,"КодОКВЭД":74.299999999999997

у вас проблемы с кодами, исправте плз, используйте строки вместо флотоф

Поправил. Спасибо.

Дело полезное, самому не хватало этих данных и буду с благодарностью использовать ваш сервис, но посмотрим на сколько вас хватит, так как боюсь палки в колеса быстро прилетят, особенно с ростом популярности.

Посмотрим. Пока я скорее боюсь, что донатов мало будет. Финансировать за свой счёт, конечно, не факт, что будем.

Старые данные. На 2020 год. В 2022 как бы не очень актуально уже все.

А ничего что за 2021 год компании ещё не сдали декларации?

Данные ЕГРЮЛ обновлаются ежедневно. Данные по доходам, расходам и налогам будут обновлены, когда они будут опубликованы. Надо полагать, что это никак не может быть раньше крайней даты сдачи деклараций. А это 30 апреля по-моему для УСН. Плюс время пока их обработают.

Не очень актуально писать не подумав и не погуглив.

Все еще хуже. Данные по налогам, доходам и расходам будут опубликованы на сайте открытых данных ФНС только 1 октября (например см. поле "дата актуальности" по ссылке https://www.nalog.gov.ru/opendata/7707329152-paytax/ ), среднесписочная численность публикуется в апреле.

Как понял, это бесплатный аналог сервиса "1С:Контрагент", который в типовых уже лет 10 как работает на собственном JSON-сервисе (сначала только как функционал заполнения данных контрагента по ИНН, а сейчас уже и проверку контрагентов прикрутили).

Занимаюсь тем же, покупаю базы и выкладываю их в открытый доступ бесплатно, вот ваша компания например:
https://nalogovaya.ru/egrul/companies/1087746982157/

Очень частые запросы на скрытие информации, как оказалось, многие физ. лица не желают, чтобы их связи с другими компаниями были общедоступными, часто угрожают судом, жалуются в роскомнадзор и тд. Готовьтесь к этому :)

Теперь сможете у нас брать данные. А нам просто немного задонатить сколько захотите. Явно сэкономите. :)

Так в законе же чётко прописано, что 152-ФЗ не охраняет открытые данные.

API как я понимаю у вас нет?

Увы, нет :(

У вас есть архивы до 2018 года?

Нет, начал с 2019.

А чего ж не скачали старые архивы? В 2021 году там за 2018 год были данные.

Покупал обходным путем в складчину, поэтому мне предоставили архивы только за 2019 год

Спросите у обходчиков, может они продадут.

Узнаю

Спасибо за проделанную работу. Сейчас смотрю в ответе данные по организациям у которых есть ИНН, но почему-то нет таких полей как телефон, почты или сайта организации. Добавление этой инфы просто не предусматривалась или не видите в ней смысл?

В ЕГРЮЛ email есть далеко не у всех организаций. А телефона и сайта там нет.

Телефоны там есть. Очень редко. В элементе <СведДолжнФЛ><СвНомТел НомТел=".....">

Значит они есть в xml и json, которые мы отдаём.

Здравствуйте, очень полезное дело делаете.
Небольшое пожелание - отдавайте даже в случае ошибок данные в валидном формате:

curl https://egrul.itsoft.ru/027407701326.json.gz -D -
HTTP/2 404 
server: nginx/1.20.1
date: Fri, 18 Feb 2022 06:07:39 GMT
content-type: text/html; charset=UTF-8
x-powered-by: PHP/7.3.33

2: Таких данных нет!

то что вернули 404 это хорошо, но вот тело не распарсится как json/xml если это надпись '2: Таких данных нет!'

Так вам же вернули в заголовке 404 - что вы там парсить после этого хотите?

очевидно тело ответа, раз уж сервер нам обещал "text/html; charset=UTF-8" хоть это и не то что мы просили :-) просто правила хорошего тона, вот например у автора местами нет обработки ошибок, и проверки входных данных (я понимаю что это минимальный пример) и сразу gzipdecode/jsonparse которые могут где-нибудь по пути от такого сломаться

раз уж сервер нам обещал "text/html; charset=UTF-8" хоть это и не то что мы просили :-)

Что бы вы там не просили - у сервера этого нет, потому он и отдает в заголовке 404 статус и это нормальная практика отдавать любую страницу ошибок в text/html. Какого еще mime type ожидать? А на запрос

https://egrul.itsoft.ru/027407701326.mp4

(которого очевидно нет также на сервере) вам что отдавать в теле ответа, видеомем с Траволтой разводящим руками?

нет обработки ошибок, и проверки входных данных (я понимаю что это минимальный пример) и сразу gzipdecode/jsonparse которые могут где-нибудь по пути от такого сломаться

Да ничего не должно сломаться, в любом парсере, даже сделаном "на коленке" первое, что должно быть реализовано - отработка на код ответа сервера, если это не 2xx - ахтунг, и прекращаем, ну и второе это проверять mime type получаемого контента.

Проверьте. Сделал.

У меня была схожая идея сделать такой сервис лет 10 назад когда работал в казначействе. Но увы.

Коллеги, во-первых, огромное спасибо за удобный инструмент! Очень помогает в работе (мы занимаемся комплексным анализом данных в том числе по юрлицам и все никак не можем допинать руководство до покупки нормальных баз).

Обратили внимание на один момент: в вашей выгрузке не выводятся некоторые данные: в частности, не выводится название на английском языке (и, подозреваем, на языках народов РФ). Для примера, вот ОГРН организации, у которой в ЕГРЮЛ есть английское наименование, но в апи его нет - 1217700550594

Возвращаясь к вашим подвигам, хотим еще раз выразить благодарность (обязательно поддержим вас финансово) и попросить дать доступ к самой базе (можно прямо в xml файлах), чтобы мы не грузили лишний раз ваши сервера.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации