Pull to refresh
0
0
Антон Абросимов @Anton_Abrosimov

Пользователь

Send message
Долго парсить 2800 страниц? Вы их руками, или на калькуляторе парсили?
17 лярдов страниц с etprf.ru были скачаны и разобраны за 2 ночи. На «домашнем» компе, с «домашним» интернетом.
Два дня ушло на анализ страниц (более 300 типов полей, связей) и написание кода (scarpy, peewee).

Какая сложность возникла при разборе ТИКов?
Например для перевода я бы использовал «кэширующий переводчик» из dict.
В __init__ запихнул функцию инициализации Яндекса, а для __missing__(key) использовал функцию перевода.
Для перевода df использовал бы функцию apply, которой скормил бы «кэширующий переводчик».

ИМХО так красивее.
Для создания сортированных словарей легче использовать стандартный модуль: docs.python.org/3/library/collections.html

Если тебе нужен «почти словарь», или «почти список»… — унаследуй его и перегрузи определенные функции, вместо написания внешней функции-обработчика. Это спровоцирует тебя осознанно подойти к выбору того, что и в какой момент делает твой тип. Ты соберешь информацию о поведении своего типа в одном месте. Ты сможешь сохранить правильное функционирование стандартных операторов сравнения, арифметики и т.д. Ты не сможешь забыть обернуть свой тип в свой обработчик в коде программы.

Использование for и pandas — плохой стиль, в общем случае. Pandas имеет встроенные оптимизированные механизмы обработки данных, которые будут работать быстрее for.
For часто используют с np для блобов, например работа с фото.
Или:
for df in [df1, df2, df3]:

В прочих случаях: df+for->освежи память
А где тут sklearn используется?
республики Северного Кавказа, где традиционно результаты попросту рисовались
масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления
Ссылка на достоверный источник информации?

Дальнейший «анализ» можно не читать. Т.к. все нижеописанное требует вдумчивого исследования и анализа.
Особенно с учетом репутации главы ФБК, на который вы подписаны.

Information

Rating
Does not participate
Location
Рыбинск, Ярославская обл., Россия
Date of birth
Registered
Activity