Pull to refresh
9
Karma
0
Rating

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Точно так. А еще домохозяйки на своих смартфонах используют нейронные сети для обработки фотографий…

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Спасибо за информацию.
А его можно взять?
По ссылке предлагают его купить.

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Микроскопом гвозди)))
Сколько людей — столько мнений.
Микроскоп большой удобно в руке лежит — одно удовольствие гвозди забивать (и при этом микроскопы под ногами валяются, а за молотком еще идти надо).
Конкретно здесь важен результат — за пару часов инструмент, позволяющий переодически мониторить изменения и извлекать данные (при этом легко интегрируясь с остальными частями).
Сколько бы заняло времени: поиск программиста, согласование требований, ожидание выполнения работ, приемка? Какова вероятность не «попасть на поддержку»?
Оценивая риски и выбирая вариант купить или сделать самому, я выбрал второй.
И никаких трудностей не испытал. Скорее это оказалось намного легче, можно было предположить.
Я честно напмсал, что вариантов может быть много.
Если Вы знаете как сделать быстрее и лучше — кидайте ссылки.
За это Вам только спасибо скажут

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Можно сказать, что первый. И неизвестно когда понадобится еще. Статья — способ капитализации знаний. Комментарии — возможность получить совет профессионального сообщества.

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Да. API есть. Если бы он стабильно работал, то был бы замечательным.

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Спасибо за конструктивную критику.
Не вижу смысла спорить по поводу терминологии.
Я понимаю, что Вы профессионал в данном вопросе с большим опытом (я действительно так считаю, без каких либо задних мыслей).
Но предлагаю посмотреть на все немного под другим углом: мне нужны данные, но API и готовый файл мне не подходят. Задача для меня не совсем профильная. В данном случае я занимаюсь анализом данных. В статье я пытаюсь показать простой и наименее затратный путь, максимально используя готовые решения, который помогает решить мою конкретную проблему. И при этом встроить решение в общий проект.

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Web scaping — термин используемый в Data Science Courses курса Getting and Cleaning Data Johns Hopkins University.
Использование c# — нормальная практика, если остальные части проекта на c#.
Простите, с чего вы решили, что эмуляция «тормозная»? Здесь проблема в скорости ответа сервера.
Если Вы внимательно читали, то могли обратить внимание, что пути генерируются просто добавлением номера страницы к известному адресу http.
И конечно готовый cvs файл с данными, ориентировочно за ноябрь 2016 (10797 записей, а на портале 12708) меня не устраивает.

Разработка веб-скрапера для извлечения данных с портала открытых данных России data.gov.ru

Можно. Но ещё вчера там были данные за ноябрь 2016, а xls вообще был пустой

Как запустить фоновый процесс в Asp.net

Подскажите, пожалуйста, по поводу in-memory storage.
Я нашел Hangfire.MemoryStorage.
Но в описании сказано, что использовать можно только для тестирования. А дальше: "… не может использоваться в production ..."
It can be useful for testing purpose like check the behaviour and use it in a development environment. Please note that it should not be used in production (no integrity and no thread safe even if many cases are managed).

Как запустить фоновый процесс в Asp.net

Да. Панель CrystalQuartz не внушает восхищения. Но это лучше чем ничего. Чтоб добавить панель я установил Nuget пакет для OWIN. Добавил несколько строк в Startup.cs

      public void Configuration(IAppBuilder app)
        {
///....
            ISchedulerFactory schedulerFactory = new StdSchedulerFactory();
            IScheduler scheduler = schedulerFactory.GetScheduler();

            app.UseCrystalQuartz(scheduler);
        }   


И все заработало — по ссылке /quartz открылась панель, которая показывает запущенные задачи.

Как запустить фоновый процесс в Asp.net

В первую очередь я искал то, что поможет мне решить мою конкретную задачу. И сделал перевод статьи. Поэтому не совсем корректно говорить, что я сам делал сравнение. Конечно, я сам попробовал запустить все варианты. Посмотрел исходники, чтоб оценить, что конкретно мне будет полезно. Честно говоря, до этого с Redis не сталкивался, хотя видел его поддержку, например, в Azure.
Судя по документации
SQL Server and Redis support
Hangfire uses persistent storage to store jobs, queues and statistics and let them survive application restarts. The storage subsystem is abstracted enough to support both classic SQL Server and fast Redis.

SQL Server provides simplified installation together with usual maintenance plans.
Redis provides awesome speed, especially comparing to SQL Server, but requires additional knowledge.

поддержка Redis есть в бесплатной версии.

Анализ наборов данных с портала открытых данных data.gov.ru

Я пытаюсь оценить насколько могут быть интересны открытые данные, размещаемые на портале. Интересны с разных точек зрения: для людей, которым нужна определенная информация для анализа, для тех, кто пытается использовать данные в качестве информации для собственных сервисов.
Я попытался классифицировать наборы данных (результаты выложу в ближайшее время).
Какие-то данные по бюджету можно посмотреть в открытых данных на сайте минфина.

Information

Rating
Does not participate
Registered
Activity