Комментарии / Профиль estin / Хабр

Евгений Татаркин@estin

Пользователь

ПрофильСтатьи1ПостыНовостиКомментарии18

Скачивание аудио с сайта mail.ru

estin 24 фев 2017 в 09:44

Лучше бы автор "отжег" так: Python — язык программирования, предназначенный для парсинга сайтов

Будущее мобайла — не приложения, а браузеры

estin 24 янв 2017 в 08:30

webassembly/wasm например

-1

Создавая хтонических чудовищ, документируй

estin 27 дек 2016 в 13:58

Зачем изобретать новый синтаксис? Будем писать документацию так же, как и раньше!

Затем что если хочется документацию иметь красивую, со сложной связностью и легко расширяемую, то лучше сразу писать доки на Sphinx. А так получается что вы хотите лоск Sphinx и сразу же загоняете себя в рамки Doxygen.

Для себя выбрал другой путь — все документирование на Sphinx для любых исходников, а сбор документации через плагин Sphinx, который построен на механизме autodoc. Вот мой sphinxcontrib-autoanysrc и есть еще куча аналогов.

Плюсы:

любые исходники документируй хоть lua, хоть SQL и встраивай UML диаграммы, блок схемы и любые другие навороты Sphinx

Минусы:

сигнатуру приходится дублировать руками, но можно и расширить плагин парсер, что не так уже тривиально )

Сказ о том как я свой REST фреймворк с веб-сокетами писал

estin 12 дек 2016 в 06:29

В описанном вами кейсе я бы выбрал SSE (Server-Sent Events). И все свелось у меня к тому что запросы к серверу шли бы обычным образом без веб сокетов и прочих (тут много плюсов), а события по SSE каналу.

Сказ о том как я свой REST фреймворк с веб-сокетами писал

estin 9 дек 2016 в 07:29

При обсуждении непосредственно и возникла идея, что было бы классно иметь достаточно «гибкий» фреймворк, который использует веб-сокеты, через которые данные циркулируют в обе стороны.

Все же почему вебсокеты?

Анонс Rust 1.12

estin 3 окт 2016 в 12:30

Rust все продолжает привлекать к себе внимание core developers других языков. Вот и Georg Brandl в списке "участников". Для тех кто живет в мире Python известное имя. Возможно еще много кто есть в этом списке, просто Georg первая знакомая для меня персона из этого списка )

Scrapy: собираем данные и сохраняем в базу данных

estin 2 сен 2016 в 10:12

При записи сразу в БД главное не забывать об особенностях различных реляционных СУБД при конкурентной работе с одной и той же БД, так как возможны блокировки и долгие инсерты, которые будут тормозить асинхронного паука синхронной записью в БД (часто используют синхронные коннекты/сокеты)

Лучше избегать работу с реляционным БД напрямую из паука, а данные писать асинхронно в файл или другое хранилище заточенное для быстрого приема данных, а уже потом отдельно импортировать данные в целевую БД.

Но для простейших вещей можно и сразу в БД что бы было меньше звеньев )

Pomp — метафреймворк для парсинга сайтов

estin 2 сен 2016 в 07:59

У вас есть поддержка закачки больших файлов ~ 1-2Gb с сохранением сразу на диск с правильным именем из Content-Disposition? В Scrapy, к сожалению нет, все качает в память перед сохранением.

Нет, поддержки нет. Делать это придется самому — работать через "поток" и направлять его в файл.

А если есть возможность, то лучше добыть ссылку на файл используя тот же Scrapy или Pomp, а далее фоном качать содержимое через curl/wget/etc отдельно с возможностью "дозакачки".

Есть ли обнаружение застрявших соединений и их рестарт? К примеру, было передано 0 байт в течении последних 60 секунд, в Scrapy тоже не реализовано.

И этого то же нет. Так же это делать нужно самому — ввести таймауты и реализовать очередь задач с логикой рестарта если был таймаут.

Python: строим распределенную систему c PySyncObj

estin 7 июл 2016 в 18:45

Это верно )
Вот тут BDFL раскрывает тему немного "we're all adults here"

Просто давно не видел двойного подчеркивания, ковыряясь в исходниках крупных и не очень python open source проектов.
Вот интересно было применяется ли в wargaming двойное подчеркивание и это как то обоснованно.

Python: строим распределенную систему c PySyncObj

estin 29 июн 2016 в 09:32

Ясно.
Мы же все знаем, что можно к ним обратиться если захотеть и бывает что они да же мешает )
Отсюда и появился вопрос из-за любопытства, зачем использовать двойное подчеркивание и добиваться мнимой инкапсуляции.
Думал что это корпоративный стиль.

Python: строим распределенную систему c PySyncObj

estin 29 июн 2016 в 08:39

Очень интересно!
А двойное подчеркивание __counter и __data это корпоративная культура кода?
Почему одного подчеркивания не хватило что бы просто намекнуть?

Запуск worker'ов сервиса с помощью systemd

estin 24 июн 2016 в 09:27

Про различия ответили, но хочу немного добавить.

Пользуюсь supervisord уже более 5 лет, и соглашусь со многими что — он с костылями, в этом нет ничего плохого )
Хотя бы то что он не может "убить" дочерние процессы запущенные не им
Сам не однократно испытывал проблемы при stop all и start all.

Так что если есть возможность, то лучше избегать supervisord.

Pomp — метафреймворк для парсинга сайтов

estin 11 мая 2016 в 14:49

Это просто прекрасно! Спасибо за новость!
У вас случаем нативной реализации http/2 для asyncio не завалялось?

Pomp — метафреймворк для парсинга сайтов

estin 10 мая 2016 в 13:29

Спасибо. Работоспособность примеров и не только под контролем drone ci.

Pomp — метафреймворк для парсинга сайтов

estin 28 апр 2016 в 13:34

использовать libcurl для работы с сетью или сразу асинхронную обвязку tornado.httpclient
использовать обертку типа delegate и переводить любую socks в http и работать уже только с http проксей

Pomp — метафреймворк для парсинга сайтов

estin 18 апр 2016 в 20:05

Нет. Не с чем сравнить, так как работа с сетью может быть любая и разбор контента может быть любой, а как раз эти два компонента и отъедают больший кусок. Как вариант реализовать на Pomp подобие какого нибудь мейнстримного фреймворка и сравнить с ним, но идея сомнительная.

Как мы боролись с парсерами

estin 4 мар 2016 в 11:16

Вы получили временную передышку? Или смогли отвадить "парсеры" совсем?

Pomp — метафреймворк для парсинга сайтов

estin 3 мар 2016 в 12:23

Мне как автору будет интересна конструктивная критика или даже предложения по улучшению.
Фреймворк всего-то несколько раз обкатывался на парочке не коммерческих хобби проектах, удовольствия ради.