Долго парсить 2800 страниц? Вы их руками, или на калькуляторе парсили?
17 лярдов страниц с etprf.ru были скачаны и разобраны за 2 ночи. На «домашнем» компе, с «домашним» интернетом.
Два дня ушло на анализ страниц (более 300 типов полей, связей) и написание кода (scarpy, peewee).
Например для перевода я бы использовал «кэширующий переводчик» из dict.
В __init__ запихнул функцию инициализации Яндекса, а для __missing__(key) использовал функцию перевода.
Для перевода df использовал бы функцию apply, которой скормил бы «кэширующий переводчик».
Если тебе нужен «почти словарь», или «почти список»… — унаследуй его и перегрузи определенные функции, вместо написания внешней функции-обработчика. Это спровоцирует тебя осознанно подойти к выбору того, что и в какой момент делает твой тип. Ты соберешь информацию о поведении своего типа в одном месте. Ты сможешь сохранить правильное функционирование стандартных операторов сравнения, арифметики и т.д. Ты не сможешь забыть обернуть свой тип в свой обработчик в коде программы.
Использование for и pandas — плохой стиль, в общем случае. Pandas имеет встроенные оптимизированные механизмы обработки данных, которые будут работать быстрее for.
For часто используют с np для блобов, например работа с фото.
Или:
республики Северного Кавказа, где традиционно результаты попросту рисовались
масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления
Ссылка на достоверный источник информации?
Дальнейший «анализ» можно не читать. Т.к. все нижеописанное требует вдумчивого исследования и анализа.
Особенно с учетом репутации главы ФБК, на который вы подписаны.
17 лярдов страниц с etprf.ru были скачаны и разобраны за 2 ночи. На «домашнем» компе, с «домашним» интернетом.
Два дня ушло на анализ страниц (более 300 типов полей, связей) и написание кода (scarpy, peewee).
Какая сложность возникла при разборе ТИКов?
В __init__ запихнул функцию инициализации Яндекса, а для __missing__(key) использовал функцию перевода.
Для перевода df использовал бы функцию apply, которой скормил бы «кэширующий переводчик».
ИМХО так красивее.
Если тебе нужен «почти словарь», или «почти список»… — унаследуй его и перегрузи определенные функции, вместо написания внешней функции-обработчика. Это спровоцирует тебя осознанно подойти к выбору того, что и в какой момент делает твой тип. Ты соберешь информацию о поведении своего типа в одном месте. Ты сможешь сохранить правильное функционирование стандартных операторов сравнения, арифметики и т.д. Ты не сможешь забыть обернуть свой тип в свой обработчик в коде программы.
Использование for и pandas — плохой стиль, в общем случае. Pandas имеет встроенные оптимизированные механизмы обработки данных, которые будут работать быстрее for.
For часто используют с np для блобов, например работа с фото.
Или:
В прочих случаях: df+for->освежи память
www.youtube.com/watch?v=yuSwTEcbtDs
youtu.be/lcFATGZtWmw?t=6m26s
www.youtube.com/watch?v=PfgA5wL5918
www.youtube.com/watch?v=BwNFnkJ43zU
И Пучкова (Гоблина) еще можете глянуть.
Дальнейший «анализ» можно не читать. Т.к. все нижеописанное требует вдумчивого исследования и анализа.
Особенно с учетом репутации главы ФБК, на который вы подписаны.