Comments / Profile of dshap / Habr

Пользователь

Проблемы кликов-переходов: сколько леммингов тонет?

dshap Apr 2 2014 at 14:52

Необходимо трекать источник трафика в рамках одной рекламной сети. Многие системы позволяют получать ID или URL площадки-источника в параметрах. Если потери носят технический характер, то он будет приблизительно идентичен для всех источников. Бывают так, что в среднем трафик в сети нормальный, но есть некоторые «активисты» с большим процентом ботовой или ручной накрутки.

Девушке поставили новый череп, напечатанный на 3D-принтере

dshap Mar 27 2014 at 21:17

Бабушка Робокопа?

-7

Hadoop, часть 3: Pig, обработка данных

dshap Mar 11 2014 at 19:58

Это довольно частое заблуждение, что кластеризация нужна только для обработки большого количества данных. Важно не количество данных, а характер выполняемых с ними операций. То, что ваши 32Гб легко влезают в память, не значит что для любой задачи вы сможете быстро, а в общем случае, вообще, обработать эти данные в памяти, или, даже, в рамках всех, включая дисковые, ресурсов одной ноды. Ваши «маленькие» данные могут легко породить декартово произведение фантастических размеров. Например, ваши 32Гб это логи посещений вашего ресурса, а получить вам нужно, скажем, список уникальных IP адресов никогда не загружавших одинаковые страницы в интервале 5 минут ))

Hadoop, часть 3: Pig, обработка данных

dshap Mar 11 2014 at 15:06

Первое правило кластеростроения — тестировать производительность любого кластерного решения только на рельном физическом кластере. Никакие однонодовые инсталляции и всякие виртуализации в рамках одной ноды никогда не дадут вам реальных результатов. Вы не получите производительности больше, чем ее есть у вас физически, при этом, не кластерные продукты в рамках одной ноды, однозначно выиграют, т.к. утилизируют эту производительность эффективнее.

Шаг в будущее для Яндекс.Маркета

dshap Oct 8 2013 at 21:55

Недобрая какая-то тенденция, что некоторые кампании пытаются стать всея интернетом

Это наша вина… Смиритесь с этим

dshap Aug 15 2013 at 16:13

Пиво, вроде, по 6 везде в упаковке ;)

Распределенная брутфорс-атака на CMS с точки зрения хостера

dshap Aug 15 2013 at 11:12

Есть еще параноидальные варианты и без капчи — 3 неудачных попытки авторизации и IP в бан на 5 минут

Распределенная брутфорс-атака на CMS с точки зрения хостера

dshap Aug 15 2013 at 09:43

1. Эффективность распознавания даже простых версий капчи сильно далека от 100%. Про сложные/нестандартные варианты даже и не говорим.
2. Сложность реализации алгоритмов распознавания капчи значительно выше чем простого брутфорсера перебирающего логины/пароли по словарю или схеме.
3. Задача распознавания капчи достаточно ресурсоемка, т.е. под это требуются либо дополнительные, иногда, весьма существенные вычислительные мощности, либо скорость перебора сильно падает.

В общем, все три фактора делают брутфорс малоэффективным. Проще бросить и поискать другую жертву или другую уязвимость, чем ломать форму с капчей брутфорсом.

Распределенная брутфорс-атака на CMS с точки зрения хостера

dshap Aug 14 2013 at 15:58

Проблема решается добавлением капчи в аторизационную форму. Такую форму даже пытаться брутфорсить не станут.

Технология Real Time MapReduce в Яндексе. Как ускорить что-то очень большое

dshap Aug 8 2013 at 16:43

Настоящая риалтаймовость для write intensive задач недостижима без кэширования и предагрегации. Фактически, описанное решение, это интеллектуальная инвалидация кэша промежуточных результатов MapReduce задачи при поступлении новых данных. Сам же MapReduce никто не отменял, хотя бы и по кэшу плюс изменения. Так что, глобально, это туда же, куда и Impala.

Как устроен Яндекс.Диск: загрузчик

dshap Jul 16 2013 at 22:13

Кладун/заберун это отлично. Сразу вспоминается Логалище… из другого проекта ;)

Архитектура высоконагруженных приложений. Масштабирование распределенных систем. Часть первая

dshap Jul 3 2013 at 10:37

В этом нет ничего удивительного — многие крупные высоконагруженные проекты используют именно этот набор инструментов. Вообще, шардинг решает большую часть проблем с нагрузками этого типа, а уж чем его делать и что использовать в качестве бэкенда для хранения — неважно, почему-бы и не MySQL.

Сложности начинаются, если у вас есть data intensive задачи, требующие выборки по многим шардам, и данные при этом плохо или совсем не агрегируемые. Здесь придется писать тонны логики, реализующей распределенные запросы. Второй неприятный случай, если вы хотите повысить время ответа, при том что у вас в рамках шарды уже минимально допустимое количество данных (которых на самом деле может быть очень много), необходимых для ответа, и дальше эти данные уже не режутся. Например один очень-очень активный пользователь, генерящий половину всех запросов/данных.

Прекратите проверять Email с помощью регулярных выражений!

dshap Apr 4 2013 at 17:41

Ждем пост про валидацию url, даты и почтового адреса при помощи регулярных выражений ;))

Онлайн хранение документов — как быть спокойным за свои данные?

dshap Jun 7 2011 at 14:50

Dropbox — сервис массовый, рассчитанный на пользователей Word-а и Excel-я. Процент тех, из них, кто может сам поднять VPS и настроить удаленный бекап, ничтожно мал. К тому же, если вдруг каждый захочет завести себе для хранения 10Гб свою собственную виртуалку, которая инфраструктурно значительно сложнее аккаунта на Dropboxe, цена на VPS-ы резко изменится ;)

Зимние перчатки для iPhone за 5 минут своими руками

dshap Jan 27 2010 at 17:09

Nokia уже работает в этом направлении…

www.nokia.com/about-nokia/research/demos/the-morph-concept/video

Yahoo выпустила социальную сеть нового поколения

dshap Sep 18 2007 at 08:46

Люди, а можно и мне инвайт, плиз, на dshap [at] devz.ru

1 2