ViacheslavZagriichuk Jun 16 2022 at 16:09

Начинающий программист vs Избирком СПб

13 min

13K

+21

Comments 44

This publication could cause conflicting feelings. Be critical of any posted information. Remember the Community Guidelines before posting your comment.

How to write and what to do?

Don`t write offensive comments or get personal.
Refrain from obscene language and toxic behavior, even in a veiled form.
o report comments that violate the rules of the site, click the "Complain" button or fill out the feedback form.

Useful links: the codex of the authors of Habr, habraethics, the full version of the site rules.
What to do if: karma goes down, the account is blocked.

Pinned comments

ViacheslavZagriichuk Jun 16 2022 at 21:37

В оригинале статьи были и мои выводы об этом, и причина, почему они сюда не попали, не в страхе. Я вам их в лс отправлю, рад, что поинтересовались!

HemulGM Jun 16 2022 at 16:34

Для парсинга страниц html есть специальные инструменты для многих языков (в том числе и для питона). Они позволяют отправиться к нужной области и получать нужные значения. Ко всему будут корректно прочитаны спец символы.

Т.е. большую часть вашего кода можно было заменить парой циклов и вызовов.

Помимо этого, большую часть проблем с доступом к сайту и странице можно было решить эмулятором браузера (например, селениум)

В итоге алгоритм такой:
1. Подключаем нужные модули селениума
2. Переходим по странице и получаем её содержимое (включая то, что будет подгружено скриптами)
3. Скармливаем всю страницу парсеру
4. Переходим к нужной области указав актуальный xpath
5. Идём по циклу и забираем готовые значения

На всё это, в худшем случае уйдёт около 40 строк

MentalBlood Jun 16 2022 at 18:09

Пример парсера: BeautifulSoup (пакет называется bs4)

DocHannibal Jun 16 2022 at 22:05

Использовать эмуляторы браузеров такая себе идея для парсинга, только если api совсем никакого нет. Ибо это все очень долго.

danilkat Jun 18 2022 at 19:50

Ещё можно вносить записи не в эксель, а в базу данных, и получать нужные группировки для визуализации через SQL запросы

sergei_shirkin Jun 16 2022 at 17:20

Вместо двумерных массивов прямо-таки напрашиваются таблицы, так что смело можно использовать pandas и орудовать датафреймами. Ну и если уж заниматься анализом данных, то, помимо pandas, также пригодятся библиотеки numpy, scikit-learn, matplotlib, seaborn и т.д. А лучше сразу поставить Anaconda, там уже всё это есть, и графики прямо там (в Jupyter Notebook) можно строить.

ViacheslavZagriichuk Jun 16 2022 at 22:05

А что вы имеете ввиду под таблицами вместо двумерных массивов? Какой-то класс для этого есть?

sergei_shirkin Jun 16 2022 at 23:58

В библиотеке pandas для создания таблиц есть класс DataFrame, он бы для задачи из этой статьи идеально подошел.

ViacheslavZagriichuk Jun 17 2022 at 08:34

Спасибо!

yason2 Jun 16 2022 at 18:11

Девтулз- Нетворк, смотрим запросы, курл - на основную таблицу - греп айдишники, курл в цикле по айдишникам, сложить в SQL. Grafana - и крутить графики как хотите. И вообще не нужно выполнять скрипты со стороны клиента

ViacheslavZagriichuk Jun 16 2022 at 22:04

Я попробую понять, что вы написали

extempl Jun 17 2022 at 03:56

Chrome -> Devtools -> Network - это место, где можно посмотреть все запросы на сайте, куда они идут, с какими параметрами, какие данные приходят в ответе.

cURL - это утилита для запросов из консоли, в devtools/network можно нажать правой кнопкой на запросе и скопировать его как cURL для вызова из консоли (ну или любым другим инструментом поддерживающим cURL или вызов консольных команд, ака, питон).

grep - утилита поиска по данным, можно использовать с результатом любой другой командой (cURL, например).

В Grafana можно скормить таблицу из БД и получить желаемые графики.

ViacheslavZagriichuk Jun 17 2022 at 08:35

О, так гораздо понятнее, спасибо!

yason2 Jun 16 2022 at 18:23

Все начинающие почему-то бегут кодить, ух вы все дураки а я вот щаз (это не камень в огород автора, он молодец, а констатация факта)..

Программист, это не про кнопки жмакать, а про достичь решения минимальными усилиями и быстро. И вот погружать страницу и выполнять J's с нее, тут точно не требуется.

Liroluka Jun 16 2022 at 21:53

Ну это как раз правильно - бежать кодить, будучи начинающим. Конечно если есть какой-нибудь наставник или какой-то пример, чтобы ориентироваться на него, то это куда полезнее. Но в любом случае сначала надо ручками все прочувствовать. Тот же говнокод начинаешь видеть только после того, как сам наговнокодил и через день вернулся что-то доделать))

ViacheslavZagriichuk Jun 16 2022 at 22:02

Я лишь недавно начал программировать, и мне было интересно решить задачу, используя понятные мне инструменты на практике, что я и сделал. Не потому, что самый умный, а очень даже наоборот:)

Понятно, что есть условно электромясорубка, которая при должной настройке проблему перемелет и это будет в итоге проще. Но зачем тогда в школе учат считать, если калькулятор умеет это делать лучше и быстрее?

Спасибо за комментарии и проявленный интерес. Правда из первого я не понял приблизительно ничего. Он в духе «х*як, потом ещё х*як и вот так-то вот», субъективно для меня на данном этапе, по крайней мере.

yason2 Jun 17 2022 at 08:03

Про обучение в школе и калькулятор: в данном случае закладываются основы, так сказать технический бэк, благодаря которым, вы примерно знаете что гуглить, и как это работает. Я встречал людей, которые сдачу в 40 рублей на калькуляторе считают ). Их видимо в школе не учили.

Kudesnick33 Jun 17 2022 at 05:29

Программист, это не про кнопки жмакать, а про достичь решения минимальными усилиями и быстро.

Вот как раз это у автора прекрасно получилось.

yason2 Jun 17 2022 at 07:01

Получилось что?

Kudesnick33 Jun 17 2022 at 09:05

Достичь практически значимого результата с минимальными затратами усилий. Данные получены? Графики построены? Какая разница, что там внутри, если цель была: спарсить один конкретный сайт и визуализировать полученные данные?

yason2 Jun 17 2022 at 09:57

Про минимальные усилия, я бы поспорил.

Результат получен - да, я про это написал выше и автора похвалил.

Какая разница, что внутри - после такого и появляются одностраничники, которые жрут по 2-3 гб памяти и проц в 100%

Kudesnick33 Jun 17 2022 at 10:31

Одностраничники на 2-3 Гб появляются, когда выбирают неправильный инструмент и неверно определяют цели. Поясню свою мысль: У автора статьи не было цели сделать универсальный супербыстрый аналитический инструмент с возможностью его развития и поддержки группой разработчиков (да поправит меня автор). Мы говорим про код, который пишется один раз для запуска 10 раз на одной конкретной машине. Если у меня на даче упала береза, я возьму топор и порублю её за несколько часов, а не буду учиться и сдавать на права на работу со спецтехникой, которая позволит мне поднять это бревно за пять минут не напрягаясь. Знать про существование бензопилы полезно, но если под рукой только топор, то почему бы и нет?

yason2 Jun 17 2022 at 10:51

Так и здесь решение не оптимальное. Тащить выполнение J's который загрузит по урлу файл, когда можно просто глянуть какие запросы идут и без всего огорода просто скачать файл. В вашем примере, это нанять для березы дровосека, вместо использования топора.

ViacheslavZagriichuk Jun 17 2022 at 11:13

Тащить выполнение J's который загрузит по урлу файл, когда можно просто глянуть какие запросы идут и без всего огорода просто скачать файл

Если действительно есть возможность вытянуть файл без рендера страницы - это замечательно. Я логически понимал, что такая возможность должна быть, что откуда-то он данные тянет и поймать бы их. Но в силу своей неосведомлённости я так и не смог понять, как это сделать, поэтому сделал то, что нашёл по своим запросам в гугл, что и описал, в общем-то:)

Насчёт оптимизации - согласен полностью, сам сторонник осмысленного использования ресурсов компьютера, просто ещё многому предстоит научиться.

Kudesnick33 Jun 17 2022 at 16:44

В вашем примере, это нанять для березы дровосека, вместо использования топора.

Не совсем. В моем примере это скорее попросить у соседа бензопилу, которую я в глаза не видел и убить пару дней на её освоение. И еще желательно не сломать её при этом. Подход правильный, если цель: "освоить новый инструмент" или "срубить еще 5-10 берез за выходные". Нанять дровосека, в данном случае, это найти фрилансера, который всё сделает.

ViacheslavZagriichuk Jun 17 2022 at 11:09

Не поправлю, составы комиссий не сильно часто меняются и делать полноценную программу с возможностью настройки и поддержкой у меня цели действительно не было. Тем не менее результат получился, работает чётко, возможности подстроить программу оставил, все ключевые моменты закомментил, так что вы правы.

far-rainbow Jun 19 2022 at 17:03

Вообще-то была ещё претензия на аналитику данных, но вместо неё мы получаем "ну... тут и так всё понятно". Кому понятно, что, где, как? Данные собрал и тут же слил их в сортир личного ангажированного мировоззрения. Я негодую!

ViacheslavZagriichuk Jun 19 2022 at 17:05

Можно как-то повежливее?

Я специально закрепил комментарий, по какой причине не опубликован вывод. И раз уж взялись и не ангажированы, то какие выводы вы делаете из этих данных? Я проверял свою гипотезу и она подтвердилась на 200%, но если у вас есть другие - прошу. Можно в личку, если тянет на политсрач.

Oborotenby Jun 16 2022 at 18:54

Очень интересно, но мало что понятно. Я так понимаю, что автор скрыл некоторые выводы, т.к. боялся их публиковать, но именно эти выводы я и хотел бы почитать.

ViacheslavZagriichuk Jun 16 2022 at 21:37

nikolas78 Jun 16 2022 at 21:40

Ну тогда уж всем в ЛС!

ViacheslavZagriichuk Jun 16 2022 at 21:52

Вам скинул?

Vlad2001MFS Jun 18 2022 at 20:16

А можно и мне скинуть?

ViacheslavZagriichuk Jun 18 2022 at 20:18

Конечно, без проблем?

3263927 Jun 19 2022 at 09:56

а мне можно тоже пожалуйста в личку скинуть выводы, ато я не понял.

спасибо

ViacheslavZagriichuk Jun 19 2022 at 17:09

Разумеется

viksav Jun 16 2022 at 22:08

это лучше вам обратиться к эстонским программистам. у них там крутой опыт по разработке электронного голосования и причем там все это работает как часы

RoboShop Jun 16 2022 at 23:29

О, родной Питер. Был я на выборах 21 года членом УИК от Вишневского, того самого, которому едросня клонов плодила. Ну, что сказать, когда я на подсчёте голосов в последний день обнаружил на пакете с билютенями за 1 день голосования следы кустарной перепайки пакета, на меня сначала начали орать председатель УИК, она же директрисса, и её подруги, тоже местные. Потом приехали мусора (да, сотрудники полиции, которые участвуют в фальсификации выборов, могут называться только мусорами), забрали вещдок - перепаянный пакет, и увезли меня в отделение, за то что умный такой. Потом был суд для отмены результата на участке, пакет, естественно "потерялся", на отснятых видео "судья" ничего не увидела. Так что тут всё и без анализа понятно.

ViacheslavZagriichuk Jun 17 2022 at 08:39

С одной стороны да, просто когда перешёл в комиссию старше, мне захотелось именно увидеть систему, как это организовано на уровне города.

saipr Jun 17 2022 at 06:32

Это история о том, как я писал код на Python 3, который собирает и систематизирует данные по избирательным комиссиям в моём родном городе Санкт-Петербурге.

Эта история напомнила мне о том как проходила подготовка к аналогичным мероприятиях в 90-ые годы прошлого столетия. С точки зрения IT-индустрии и IT-технологий, это были тяжелейшие годы, компьютеров и принтеров не просто не хватало, во многих местах их просто не было.
Речь тогда шла о подготовке ваучеризации.
30 лет назад 1 октября 1992 года во всех отделениях Сбербанка РФ г. Химки стали выдавать ваучеры.

Satim Jun 17 2022 at 08:22

Чтение файлов лучше через yield сделать, фиг его знает какого размера файл на вход придет.

ViacheslavZagriichuk Jun 17 2022 at 08:42

Справедливо?

slavius Jun 17 2022 at 11:50

Это Вам еще повезло, что русские буквы текстом, а не с использованием специальных шрифтов со схожим начертанием, и разные для разных страниц, как было на сайте центризбиркома во время выборов... https://habr.com/ru/post/579492/

А тут описаны неплохие инструменты https://habr.com/ru/post/588989/

Andrey_Solomatin Jun 21 2022 at 07:29

Когда начинал программировать, тоже писал такие простыни. Успешный проект по результату это хорошо.

Небольшие советы:

Если имя занято то можно добавить подчёркивание в конце, будет легече читать. und -> and_

Для filter_keywords посмотрите втроенные функции all и any

Для analysis помотрите на collections.Counter, и по втроенным в Питон объектам есть неплохое видео на английском https://www.youtube.com/watch?v=lyDLAutA88s

В analysis переменная counter это сумма всех значений, его проще посчитать один раз в конце counter = sum(result.values()). Если для каждого случая нужно поменять две переменных, то есть место для ошибки.

filter_or это же и есть filter_keywords с and_=False, когда есть похожие функции то их стоит поместить рядом и подумать нельзя ли их объединить. В данном случае можно и обсолютно бесплатно.

Для визуализиции я сейчас играюсь с streamlit, это "умный принт" который выводит ваши результаты на html страницу. Туда можно как данные вывести так и графики. Красиво из коробки печатает pandas.DataFrame. https://streamlit.io/

ViacheslavZagriichuk Jun 21 2022 at 08:24

Спасибо за такой развёрнутый комментарий, учту?