User
я парсю так на .Net:
загружаю плоский HTML страницы (могут быть разные реализации)
прогоняю через SgmlReader - он выдает валидный ХMLDocument (https://github.com/kekyo/CenterCLR.SgmlReader)
делаю запросы ХPath к ХMLDocument DOM, результаты пишу в предварительно подготовленные таблицы БД
отличная статья. интересная.
на 6-м шаге возникает ошибка при авторизации. по указанному URL выдается нужная строка - но сервер не авторизуется.
я парсю так на .Net:
загружаю плоский HTML страницы (могут быть разные реализации)
прогоняю через SgmlReader - он выдает валидный ХMLDocument (https://github.com/kekyo/CenterCLR.SgmlReader)
делаю запросы ХPath к ХMLDocument DOM, результаты пишу в предварительно подготовленные таблицы БД
отличная статья. интересная.
на 6-м шаге возникает ошибка при авторизации. по указанному URL выдается нужная строка - но сервер не авторизуется.