How to become an author

Андрей @andreypaa

User

ProfileArticlesPostsNewsComments86

psman Feb 19 2011 at 21:14

Ищем быстро, еще быстрее

3 min

22K

Натолкнулся в разделе QA на интересный вопрос. Ответ на него заставил написать эту статью как бОлее полный ответ на вопрос «как организовать поиск по множеству параметров, как в Яндекс-маркете, например».

Я знаю, что на Хабре, да и вообще есть много сторонников noSQL решений (сам не без греха), но все же я сторонник сначала подумать, а уже потом выбирать решение.

Итак, что имеем в «ДАНО»

Имеем 120 чекбоксов — вариант 1/0
Имеем 30 «радио» с выбором «да/нет/не важно»
Имеем 2-3 слайдера для указания диапазона цен/размера чего нить
Имеем самое главное: 12 млн записей в БД.
Имеем Select * From tovar Where (wifi=true) and (led=false) and (type=3) and ….остальные параметры …; со временем выполнения близкому к истерике клиента.

Читать дальше →

+176

tablum Jul 3 2015 at 16:59

Экспресс-анализ подозрительной активности в журнале веб-сервера

7 min

19K

Website development*Information Security*

На большинстве современных хостингов кроме FTP доступа к файловой системе предоставляется также SSH доступ (по-умолчанию или по запросу в тех поддержку). Умение веб-мастера работать с файлами сайта в терминале (в режиме командной строки) по SSH экономит ему массу времени. Операция, которая может занимать десятки минут по FTP, делается через командную строку за пару секунд. Кроме того, есть много операций, которые можно сделать только по SSH в режиме командной строки.

Веб-мастеру не обязательно осваивать весь инструментарий операционной системы Unix, для начала достаточно познакомиться с базовыми командами, а к ним добавить несколько полезных трюков при работе с командной строкой по SSH, чтобы быстро искать файлы, изменять их атрибуты, копировать, удалять и выполнять операции с текстовыми данными.

Я пропущу описание протокола и процесса подключения к аккаунту хостинга по SSH, в сети можно найти множество видео-уроков и статей по данной теме, скажу лишь что для подключения вам потребуется программа Putty (ОС Windows) / Терминал (Mac OS X) или аналогичные, и доступы к хостингу по SSH: хост, порт, логин и пароль (часто имя и пароль они совпадают с доступом в cPanel, ISPManager или аккаунтом панели управления хостингом).

Итак, что полезного можно делать в командной строке? Можно быстро выполнять поиск подстроки в текстовом файле, сортировку, фильтрацию текстовых данных. Например, для анализа журналов (логов) веб-сервера, чтобы выявить подозрительные запросы к сайту или понять, как взломали сайт.

Предположим, вы заметили подозрительную активность на сайте (стал медленно открываться, пропали доступы в админ-панель, с сайта рассылают спам и т.п.). Первое, что в этом случае нужно выполнить – это проверить файлы сайта на вредоносный код специализированными сканерами. Но пока сайт сканируется, можно провести экспресс-анализ логов веб-сервера с помощью команд find/grep, чтобы опеределить, не было ли обращений к каким-то подозрительным скриптам, попыток брутфорса (подбора пароля) или вызовов хакерских скриптов. Как это сделать? Об этом ниже.

Читать дальше →

+1

ser0t0nin Jul 2 2015 at 15:09

Иерархическая классификация сайтов на Python

8 min

27K

DCA (Data-Centric Alliance) corporate blogBig Data*Python*Machine learning*

Привет, Хабр! Как упоминалось в прошлой статье, немаловажной частью нашей работы является сегментация пользователей. Как же мы это делаем? Наша система видит пользователей как уникальные идентификаторы cookies, которые им присваиваем мы или наши поставщики данных. Выглядит этот id, например, так:

42bcfae8-2ecc-438f-9e0b-841575de7479

Эти номера выступают ключами в различных таблицах, но первоначальным value является, в первую очередь, URL страниц, на которых данная кука была загружена, поисковые запросы, а также иногда некоторая дополнительная информация, которую даёт поставщик – IP-адрес, timestamp, информация о клиенте и прочее. Эти данные довольно неоднородные, поэтому наибольшую ценность для сегментации представляет именно URL. Создавая новый сегмент, аналитик указывает некоторый список адресов, и если какая-то кука засветится на одной из этих страничек, то она попадает в соответствующий сегмент. Получается, что чуть ли не 90% рабочего времени таких аналитиков уходит на то, чтобы подобрать подходящий набор урлов – в результате кропотливой работы с поисковиками, Yandex.Wordstat и другими инструментами.

Получив таким образом более тысячи сегментов, мы поняли, что этот процесс нужно максимально автоматизировать и упростить, при этом иметь возможность мониторинга качества алгоритмов и предоставить аналитикам удобный интерфейс для работы с новым инструментом. Под катом я расскажу, как мы решаем эти задачи.

Читать дальше →

+36

stepansokolov Jul 3 2015 at 08:35

Подводные камни A/Б-тестирования или почему 99% ваших сплит-тестов проводятся неверно?

8 min

54K

Retail Rocket corporate blogWeb services testing*

«Горячая» и часто обсуждаемая сегодня тема оптимизации конверсии привела к безусловной популяризации А/Б-тестирования, как единственного объективного способа узнать правду о работоспособности тех или иных технологий/решений, связанных с увеличением экономической эффективности для онлайн-бизнеса.

За этой популярностью скрывается практически полное отсутствие культуры в организации, проведении и анализе результатов экспериментов. В Retail Rocket мы накопили большую экспертизу в оценке экономической эффективности от систем персонализации в электронной коммерции. За два года был отстроен идеальный процесс проведения A/Б-тестов, которым мы и хотим поделиться в рамках этой статьи.

Читать дальше →

+12

leMar Aug 24 2009 at 09:26

Когда Photoshop отображает совсем не то, что надо

3 min

290K

Website development*

example

Такая вот ситуация: дизайнер присылает макет, а у верстальщика открывается какая то лабуда светлая, или темная (если верстальщик испольует МасOS, а дизайнер Win.). Или же верстальщик сохраняет картинку, а там цвета другие стали.

Разберемся почему так и как с этим жить.

Читать дальше →

+143

Aloneal Jul 1 2015 at 11:52

В игре Го можно увидеть больше оттенков серого

2 min

18K

Часть первая — Знакомство

Я начинал свою историю игры в Го давным давно в 2006 году. Начало может быть вполне обычное, а может быть и нет.

После поступления в аспирантуру я решил, что теперь у меня появилось много свободного времени, которое надо тратить на разные интересные занятия (очевидно, что с аспирантурой у меня в последствии ничего толкового не вышло, хотя поездить по иностранным школам было очень приятно в плане путешествий, а не приобретения профессиональных знаний). Одно из интересных занятий было посвящено шахматам. Эта игра казалась мне венцом творения интеллектуальных игр. Как то поделился я мыслями со своим приятелем, а он мне и говорит, что есть игра гораздо сложнее — Го называется. (На тему Го можно почитать у GlukKazan)

Читать дальше →

+29

alec_kalinin Jul 1 2015 at 09:04

Краткое введение в тензоры

3 min

174K

В заметке Магия тензорной алгебры было дано очень неплохое введение в математику тензоров. Но, как мне кажется, этот текст все-равно несколько сложен для понимания. В нем не до конца понятно, что же это такое тензор и зачем он вообще нужен.

Сейчас я попытаюсь дать совсем простое введение в тензоры. Я не претендую на математическую строгость, поэтому некоторые термины могут употребляться не совсем корректно.

Читать дальше →

+29

TheMidgardWatcher Jun 30 2015 at 08:30

Развертывание кластера Postgres-xl для чайников

15 min

20K

Здравствуйте. Хочу поделиться с хабровчанами своим опытом развертывания кластера Postgres-xl в виде мини-инструкции для «чайников». Статей и мануалов на тему развертывания кластера postgres-xl не то чтобы много, но достаточно. И в них всех есть пару существенных недостатков на взгляд такого человека как я, который никогда прежде не занимался кластеризацией и тем более никогда прежде не работал в линукс-подобных осях. Все статьи подобного рода написаны для людей уже более-менее знакомых с линуксом и развертыванием postgresql/postgres-xl на таком окружении.

Поэтому и возникло желание поделится с остальными своими наработками. Далее я пошагово опишу весь процесс развертывания, от скачивания исходников postgres-xl и их компиляции, до конфигурирования кластера.

Так как много статей «для опытных» уже написано, и на хабре тоже, я опущу описание самого Postgres-xl, его компонентов и их типов (ролей).

Читать дальше →

+20

SmartEngines Jun 30 2015 at 10:02

Поиск четырёхугольников документов на мобильных устройствах

6 min

14K

Smart Engines corporate blogDevelopment of mobile applications*Algorithms*Image processing*Programming*

Некоторые из модулей распознавания документов, разработанных нашей компанией, в качестве первого этапа своей работы должны определять расположение объекта на поступающем изображении или в видеопотоке. Сегодняшняя статья посвящена одному из задействованных у нас подходов к решению этой задачи.

Постановка задачи

Для начала определим, какую информацию мы можем использовать в своих целях.
В приложениях достаточно жёстко заданы предполагаемые типы документов. Будем считать, что никто всерьёз не пытается распознать паспорт приложением для банковских карт или наоборот, а значит нам известны, как минимум, пропорции искомого объекта. Также заметим, что абсолютное большинство мобильных девайсов имеет камеры с фиксированным фокусным расстоянием.

Читать дальше →

+15

vladkozlovski Jun 29 2015 at 17:00

Свой облачный хостинг за 5 минут. Часть 1: Ansible, Docker, Docker Swarm

11 min

138K

Website development*

Cloud hosting

Привет Хабр! Последние 1.5 года я работал над своим проектом, которому был необходим надежный облачный хостинг. До этого момента я больше 10 лет занимался веб-программированием и когда я решил построить свой хостинг у меня были относительно поверхностные знания в этой области, я и сейчас не являюсь системным администратором. Все что я буду рассказывать может выполнить обычный программист в течение 5 минут, просто запустив набор сценариев для Ansible, которые я подготовил специально для вас и выложил на GitHub.

Читать дальше →

+62

maisvendoo Jun 30 2015 at 07:48

Магия тензорной алгебры: Часть 1 — что такое тензор и для чего он нужен?

7 min

379K

Содержание

Введение

Это было очень давно, когда я учился классе в десятом. Среди довольно скудного в научном плане фонда районной библиотеки мне попалась книга — Угаров В. А. «Специальная теория относительности». Эта тема интересовала меня в то время, но информации школьных учебников и справочников было явно недостаточно.

Однако, книгу эту я читать не смог, по той причине, что большинство уравнений представлялись там в виде тензорных соотношений. Позже, в университете, программа подготовки по моей специальности не предусматривала изучение тензорного исчисления, хотя малопонятный термин «тензор» всплывал довольно часто в некоторых специальных курсах. Например, было жутко непонятно, почему матрица, содержащая моменты инерции твердого тела гордо именуется тензором инерции.

Читать дальше →

+56

ph_piter Jun 30 2015 at 09:18

Любовь и математика. Сердце скрытой реальности

3 min

48K

Издательский дом «Питер» corporate blogMathematics*Professional literature*

Привет, Хаброжители!
У нас с фондом Династия недавно вышла книга Эдуарда Френкеля «Любовь и математика. Сердце скрытой реальности»

«Моя цель не в том, чтобы вас чему-то научить. Я хочу дать вам возможность почувствовать, что существует целый мир, который от нас старательно скрывается, — мир математики. Это портал в неизведанную реальность, ключ к пониманию глубинных тайн Вселенной и нас самих. Математика не единственный портал, есть и другие. Но в некотором смысле он самый очевидный. И именно поэтому он так закамуфлирован, как будто бы на нем прибита доска с надписью: «Вам сюда не надо». А на самом деле надо. И когда мы входим в него, мы вспоминаем, кто мы: не маленькие винтики большой машины, не одинокие души, прозябающие на отшибе Вселенной. Мы — Творцы этого мира, способные дарить друг другу красоту и любовь». — Эдуард Френкель.

Читать дальше →

+22

shuvaevgl Jun 30 2015 at 06:15

Гроза, молния и средства защиты электросети своими силами

8 min

174K

По итогам майских гроз пришлось провести ревизию сгоревшего оборудования и хотя ущерб был не так велик материально, но выход из строя некоторого оборудования нарушил устоявшийся комфорт проживания в собственном доме. Так я решил обратиться к специалистам в своей области, проконсультироваться и расширить систему защиты.

Исходные данные: дом, 3 фазы (15 кВт на дом), заземление штырем в 3 м длиной, автономная электросистема на базе солнечных батарей

Читать дальше →

+41

Zalina Jun 28 2015 at 13:45

Лекция Дмитрия Ветрова о математике больших данных: тензоры, нейросети, байесовский вывод

2 min

49K

Яндекс corporate blogBig Data*Algorithms*Mathematics*Machine learning*

Сегодня лекция одного из самых известных в России специалистов по машинному обучению Дмитрия Ветрова, который руководит департаментом больших данных и информационного поиска на факультете компьютерных наук, работающим во ВШЭ при поддержке Яндекса.

Как можно хранить и обрабатывать многомерные массивы в линейных по памяти структурах? Что дает обучение нейронных сетей из триллионов триллионов нейронов и как можно осуществить его без переобучения? Можно ли обрабатывать информацию «на лету», не сохраняя поступающие последовательно данные? Как оптимизировать функцию за время меньшее чем уходит на ее вычисление в одной точке? Что дает обучение по слаборазмеченным данным? И почему для решения всех перечисленных выше задач надо хорошо знать математику? И другое дальше.

Люди и их устройства стали генерировать такое количество данных, что за их ростом не успевают даже вычислительные мощности крупных компаний. И хотя без таких ресурсов работа с данными невозможна, полезными их делают люди. Сейчас мы находимся на этапе, когда информации так много, что традиционные математические методы и модели становятся неприменимы. Из лекции Дмитрия Петровича вы узнаете, почему вам надо хорошо знать математику для работы с машинным обучением и обработкой данных. И какая «новая математика» понадобится вам для этого. Слайды презентации — под катом.

Читать дальше →

+56

moigagoo Jun 27 2015 at 12:15

«pip -t» — простая альтернатива virtualenv

4 min

19K

Python*Website development*

Translation

TL;DR

Чтобы просто установить и изолировать зависимости проекта, virtualenv часто оказывается слишком тяжелым решением. Предлагаем простую альтернативу:

добавить ./.pip в переменную окружения PYTHONPATH,
установить пакеты локально с помощью pip install -t .pip,
запускать python из папки проекта.

Читать дальше →

+24

frii_fond Jun 25 2015 at 08:01

200 блогов по разработке и проектированию

8 min

46K

Фонд развития интернет-инициатив corporate blogWebsite development*Programming*Professional literature*

Translation

Привет, Хабр! Мы решили посмотреть на то, как крупнейшие бизнесы и студии делятся своими наработками, и адаптировали подборку технологических блогов. Уверены, что опыт коллег поможет нам всем сделать Хабр еще интереснее.

Читать дальше →

+20

macleginn Jun 24 2015 at 22:06

Простой алгоритм для поиска всех совпадающих под-текстов в двух текстах

4 min

30K

По долгу службы мне часто нужно находить все пересечения между текстами (например, все цитаты из одного текста в другом). Я достаточно долго искал стандартное решение, которое бы позволило бы это делать, но найти его мне так и не удалось — обычно решается какая-то совсем или немного другая задача. Например, класс SequenceMatcher из difflib в стандартной библиотеке Питона находит самую длинную общую подпоследовательность в двух последовательностях hashable элементов, а потом рекурсивно повторяет поиск слева и справа от нее. Если в одном из текстов будет более короткая подпоследовательность, которая содержится внутри уже найденной (например, если кусок длинной цитаты где-то был повторен еще раз), он ее пропустит. Кроме того, когда я загнал в него «Войну и мир» и «Анну Каренину» в виде списков слов и попросил для начала найти самую длинную подпоследовательность, он задумался на семь минут; когда я попросил все совпадающие блоки, он ушел и не вернулся (в документации обещают среднее линейное время, но что-то в прозе Льва Толстого, по-видимому, вызывает к жизни worst-case квадратичное).

В конечном итоге я придумал свой алгоритм, тем самым наверняка изобретя велосипед, который надеюсь увидеть в комментариях. Алгоритм делает ровно то, что мне нужно: находит все совпадающие последовательности слов в двух текстах (за исключением тех, что в обоих текстах входят в состав более крупных совпадающих последовательностей) и сравнивает «Войну и мир» с «Анной Карениной» за минуту.

Читать дальше →

+21

AlexeyNadezhin Jun 24 2015 at 08:46

LampTest.ru — тестирование светодиодных ламп

4 min

60K

LampTest corporate blogSmart HouseComputer hardwareGadgets

Рад сообщить, что cайт lamptest.ru (он же lamptest.com), над которым мы работали полгода, сегодня заработал в «боевом» режиме.

На сайте собраны данные по протестированным мной светодиодным лампам. Сейчас их там 102, но уже скоро добавится ещё пара десятков. На сайте уже есть данные по всем лампочкам Ikea, по большому количеству ламп Thomson, Navigator, Gauss.

Читать дальше →

+60

marks Jun 23 2015 at 16:53

Бесплатный репозиторий научных статей и книг Libgen закрылся под давлением правообладателей

2 min

57K

GadgetsCopyright

Как сообщалось ранее, высокий суд Великобритании постановил блокировать сайты с «пиратскими» книгами на уровне провайдеров. В мае суд вынес положительное решение по иску The Publishers Association. В исковом заявлении эта организация требовала блокировать «пиратские» eBook сайты (Ebookee, LibGen и Freshwap) на уровне провайдеров. Исполнять решение суда пришлось таким провайдерами, как BT, Virgin Media, Sky, TalkTalk и EE. Срок исполнения постановления — 10 дней.

Теперь к действиям своих коллег присоединились и правообладатели из США. Так, академическое издательство Elsiever пытается добиться от окружного суда США по Восточному судебному округу штата Нью-Йорк положительного решения по своему иску к Libgen. Издательство надеется, что суд даст предварительное решение по блокировке ресурса.

Читать дальше →

+33

onegreyonewhite Jun 22 2015 at 12:00

ELK+R как хранилище логов

3 min

33K

High performance*

В компании заказчика появилась необходимость в неком хранилище логов с возможностью горизонтального масштабирования. Исходя из начала задачи первая мысль — Splunk. К сожалению, стоимость данного решения уходила далеко за пределы бюджета заказчика.

В итоге выбор пал на связку Logstash + Elasticsearch + Kibana.

Читать дальше →

+14

1 2 ...

14

15 16 ...