Articles / Bookmarks / Profile of RomanL / Habr

How to become an author

Roman Lugovkin @RomanL

Пользователь

ProfileArticles4PostsNewsComments594

FZambia Apr 12 2017 at 07:36

Centrifugo – 3.5 миллиона оборотов в минуту

9 min

43K

Website development*Programming*High performance*Open source*Go*

Последний раз я писал про Centrifugo чуть больше года назад. Пришло время напомнить о существовании проекта и рассказать, что произошло за этот период времени. Чтобы статья не скатилась в скучное перечисление изменений, я попробую сконцентрировать внимание на некоторых Go библиотеках, которые помогли мне в разработке – возможно, вы почерпнете для себя что-то полезное.

Читать дальше →

+46

rdruzyagin Apr 11 2017 at 11:10

Миллионы запросов в секунду: мирная битва между PostgreSQL и MySQL при сегодняшних требованиях к рабочим нагрузкам

10 min

38K

PG Day'17 Russia corporate blogData storage*System administration*Database Administration*DevOps*

Translation

Мы уже упоминали, что в этом году тематика конференции PG Day’17 Russia значительно расширилась. Совместно с компанией Percona мы сформировали отдельный поток выступлений по MySQL/NoSQL. Помимо докладов от ведущих специалистов по открытым базам данных и no sql решениям, в рамках конференции состоятся также 2 эксклюзивных мастер-класса от ведущих специалистов Percona — Петра Зайцева и Светы Смирновой.

На мастер-классах будут рассмотрены самые различные темы по базам MySQL: создание и использование тестового сервера, тонкости отладки медленных запросов, особенности систем блокировок, влияние оборудования и конфигурации на производительность, сбор данных с минимальной нагрузкой на сервер.

Сегодня предлагаем вашему вниманию перевод небольшого обзора, в котором Света Смирнова ‒ старший инженер службы технической поддержки Percona и Анастасия Распопина, специалист по маркетингу, сравнивают как PostgreSQL и MySQL справляются с миллионами запросов в секунду.

5-го июля для участников PG Day’17 Светлана более подробно расскажет про архитектуру MySQL сервера и специфику работы с разными его частями, такими как оптимизатор, табличные движки, системы блокировок.

Анастасия: Могут ли базы данных с открытым исходным кодом справиться с миллионом запросов в секунду? Многие защитники открытого исходного кода ответят «да». Однако утверждений недостаточно для обоснованных доказательств. Именно поэтому в этой статье мы делимся результатами тестов от Александра Короткова (директора отдела разработки, Postgres Professional) и Светы Смирновой (главный инженер по техническому обслуживанию, Percona). Сравнительное исследование производительности PostgreSQL 9.6 и MySQL 5.7 будет особенно полезно для сред с несколькими базами данных.

Читать дальше →

+30

anastasiagrishina Apr 6 2017 at 11:02

Быстрый старт: обзор основных Deep Learning фреймворков

6 min

25K

New Professions Lab corporate blogBig Data*Data Mining*Machine learning*

Привет, Хабр! Предлагаем вам перевод поста “Getting Started with Deep Learning” от Мэтью Рубашкина из Silicon Valley Data Science о преимуществах и недостатках существующих Deep Learning технологий и о том, какой фреймворк выбрать, учитывая специфику задачи и способности команды.

Читать дальше →

+17

PayOnline Mar 30 2017 at 08:47

Особенности интернет-эквайринга и альтернативные платежные инструменты на европейском рынке

6 min

11K

PayOnline corporate blogResearch and forecasts in IT*Studying in ITFinance in IT

15 марта состоялся вебинар, посвященный особенностям платежного бизнеса и интернет-эквайринга в странах ЕС. Соорганизатором онлайн-мероприятия стала наша процессинговая компания PayOnline. В качестве одного из спикеров вебинара выступила Анна Иванова, директор по международному развитию PayOnline System LLC с темой: «Интернет-эквайринг по-европейски — почувствуй разницу».

Свое выступление Анна посвятила особенностям ценообразования в сфере услуг европейского интернет-эквайринга, этапам подключения интернет-торговца к банку-эквайеру, а также специфике альтернативных платежных инструментов в странах ЕС.

В начале своей презентации Анна дала определение понятия Interchange — взаимообменного сбора, который взимается с банка-эквайера в пользу банка-эмитента.

После пояснения значения термина Interchange Анна привела международную классификацию направлений платежей:

Domestic — карта плательщика выпущена в той же стране, где зарегистрировано и юридическое лицо, в пользу которого идет оплата. Пример: платежная операция от покупателя мерчанту, при которой обе стороны находятся в Латвии.
Intra — карта плательщика выпущена в Еврозоне (SEPA), в пределах которой зарегистрировано юридическое лицо. Пример: платеж от покупателя из Латвии мерчанту в Литве.
Inter (cross border) — карта плательщика находится вне Еврозоны. Пример: платеж от покупателя из России мерчанту, зарегистрированному в Латвии.

Читать дальше →

+16

ru_vds Mar 21 2017 at 11:54

Топ-5 альтернатив jQuery UI

10 min

28K

RUVDS.com corporate blogjQuery*

Translation

Календари, слайдеры, списки, средства для построения графиков и диаграмм — все эти и многие другие компоненты пользовательских интерфейсов находят применение в бесчисленном множестве веб-проектов. Программист, когда ему нужно что-то подобное, может пойти двумя путями. Первый — создать необходимый элемент интерфейса самостоятельно, второй путь — воспользоваться существующими разработками в этой области.

Главный минус самостоятельной разработки UI-компонентов — большие затраты сил и времени. Вкладывать ресурсы в подобное дело стоит лишь в том случае, когда речь идёт о чём-то совершенно уникальном. Когда же всё, что нужно — это простые, стандартные элементы, в ход идут библиотеки и фреймворки для разработки пользовательских интерфейсов. Они упрощают и ускоряют работу. Для интеграции в проект элементов управления из подобных «сборников» нужна лишь их настройка — процедура обычно куда более простая, чем разработка собственных компонентов.

Читать дальше →

+10

InlyIT Feb 1 2017 at 10:29

Матрица с идеями для стартапов

2 min

48K

InlyIT corporate blogStart-up development

Translation

Буквально на днях Эрик Стромберг, бывший совладелец книжного сервиса Oyster, чуть более года назад проданного Google, рассказал о матрице, которая поможет вам найти идею для нового стартапа. Сама задумка создания подобной матрицы многим показалась чрезвычайно интересной. Пост Эрика, размещенный в его блоге на Medium, спровоцировал обширную дискуссию и вызвал интерес у мировых СМИ. Тем, кто еще не слышал об этой концепции, мы предлагаем ознакомиться с переводом резонансной публикации.

Читать дальше →

+21

devpony Jan 23 2017 at 08:20

Ищем знакомые лица

15 min

65K

Python*Mathematics*Machine learning*

Привет

В статье я хочу познакомить читателя с задачей идентификации: пройтись от основных определений до реализации одной из недавних статей в данной области. Итогом должно стать приложение, способное искать одинаковых людей на фотографиях и, что самое главное, понимание того, как оно работает.

+69

olegbunin Jan 5 2017 at 19:38

Производительность запросов в PostgreSQL – шаг за шагом

15 min

94K

Конференции Олега Бунина (Онтико) corporate blogPostgreSQL*SQL*High performance*

Илья Космодемьянский ( hydrobiont )

Для начала сразу пару слов о том, о чем пойдет речь. Во-первых, что такое оптимизация запросов? Люди редко формулируют и, бывает так, что часто недооценивают понимание того, что они делают. Можно пытаться ускорить какой-то конкретный запрос, но это не обязательно будет оптимизацией. Мы немного на эту тему потеоретизируем, потом поговорим о том, с какого конца к этому вопросу подходить, когда начинать оптимизировать, как это делать, и как понять, что какой-то запрос или набор запросов никак нельзя оптимизировать – такие случаи тоже бывают, и тогда нужно просто переделывать. Как ни странно, я почти не буду приводить примеров того, как запросы оптимизировать, потому что даже 100 примеров не приблизят нас к разгадке.

+42

moscowart Feb 5 2016 at 12:43

Рекомендации на потоке

7 min

13K

E-Contenta corporate blogBig Data*Algorithms*

Всем привет!

Сегодня мы расскажем о том, как с помощью потоковой обработки данных можно увеличить качество рекомендаций и снизить время отклика всей рекомендательной системы в 5 раз. Речь пойдет об одном из наших клиентов – сервисе потокового видео Rutube.

Читать дальше →

+16

itmo Feb 3 2016 at 15:57

Подборка: Более 70 источников по машинному обучению для начинающих

5 min

103K

ITMO corporate blogPython*Machine learning*Professional literature*Website development*

Индикатор кулачкового аналогового компьютера / Wiki

В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.

Читать дальше →

+27

rvncerr Sep 15 2015 at 11:03

Как работает реляционная БД

51 min

559K

VK corporate blogAlgorithms*

Tutorial

Translation

Реляционные базы данных (РБД) используются повсюду. Они бывают самых разных видов, от маленьких и полезных SQLite до мощных Teradata. Но в то же время существует очень немного статей, объясняющих принцип действия и устройство реляционных баз данных. Да и те, что есть — довольно поверхностные, без особых подробностей. Зато по более «модным» направлениям (большие данные, NoSQL или JS) написано гораздо больше статей, причём куда более глубоких. Вероятно, такая ситуация сложилась из-за того, что реляционные БД — вещь «старая» и слишком скучная, чтобы разбирать её вне университетских программ, исследовательских работ и книг.

На самом деле, мало кто действительно понимает, как работают реляционные БД. А многие разработчики очень не любят, когда они чего-то не понимают. Если реляционные БД используют порядка 40 лет, значит тому есть причина. РБД — штука очень интересная, поскольку в ее основе лежат полезные и широко используемые понятия. Если вы хотели бы разобраться в том, как работают РБД, то эта статья для вас.

Читать дальше →

+226

GMorozov Sep 12 2015 at 09:07

Об одной задаче Data Science

7 min

23K

MLClass corporate blogProgramming*Mathematics*Data Mining*Big Data*

Привет, хабр!

Как и обещал, продолжаю публикацию статей, в которой описываю свой опыт после прохождения обучения по Data Science от ребят из MLClass.ru (кстати, кто еще не успел — рекомендую зарегистрироваться). В этот раз мы на примере задачи Digit Recognizer изучим влияние размера обучающей выборки на качество алгоритма машинного обучения. Это один из самых первых и основных вопросов, которые возникают при построении предиктивной модели

Читать дальше →

+14

Kurtosis Aug 26 2015 at 11:08

Кластеризация графов и поиск сообществ. Часть 2: k-medoids и модификации

11 min

24K

DCA (Data-Centric Alliance) corporate blogData Mining*Algorithms*Machine learning*

Привет, Хабр! В этой части мы опишем вам алгоритм, с помощью которого были получены цвета на графах из первой части. В основе алгоритма лежит k-medoids — довольно простой и прозрачный метод. Он представляет собой вариант популярного k-means, про который наверняка большинство из вас уже имеет представление.

В отличие от k-means, в k-medoids в качестве центроидов может выступать не любая точка, а только какие-то из имеющихся наблюдений. Так как в графе между вершинами расстояние определить можно, k-medoids годится для кластеризации графа. Главная проблема этого метода — необходимость явного задания числа кластеров, то есть это не выделение сообществ (сommunity detection), а оптимальное разбиение на заданное количество частей (graph partitioning).

С этим можно бороться двумя путями:

Читать дальше →

+25

ha7y Aug 24 2015 at 12:56

SQL Insert Injection в одном интернет магазине

13 min

59K

Information Security*SQL*

Давно на Хабре не звучали истории про SQL injection. А уж рассказов из жизни про SQL INSERT injection вообще очень мало. Поэтому расскажу свою.

Лирическое вступление

Лирическое вступление

Всё началось с моего желания купить себе нечто недешёвое в разборном виде в интернет-магазине A.B.ru фирмы B. После оформления, связи с менеджером по электронной почте, получения посылки и обзора её содержимого оказалось, что некоторых метизов очень не хватает. Полного перечня всего необходимого не было, лишь список болтов, гаек и шайб. Я начал сборку, дойдя до того места, где без отсутствующих болтов уже никак не обойтись. Поэтому мною было скурпулёзно составлено описание не найденных метизов и выслано электронным письмом той же девушке-менеджеру, с которой мы общались. К чести магазина стоит сказать, что практически всё необходимое было выслано второй посылкой. Поэтому я начал сборку, загоняя в дальний угол своего разума опасения о том, что может отсутствовать что-то ещё. Но, дойдя до финишной прямой, оказалось, что примерно 1/4-ой часть устройства не хватает в принципе, судя по фотографиям из руководства и здравому смыслу. Поэтому за первым письмом о недокомплекте последовало второе, куда более обширное, а сборка отложена.
Когда прошла вторая неделя ожидания, мне удалось убедить себя в том, что девушка-менеджер вышла в отпуск. Поэтому я переслал ей письмо двухнедельной давности ещё раз и перешёл к поиску других каналов электронной связи — очень уж не хотелось звонить в Москву. В первую очередь тоже самое письмо было отправлено на общий эл-адрес A@B.ru, на что был получен мгновенный ответ: почтовый сервер отказывается принимать письмо из-за переполненного ящика получателя <мужик>@B.ru. Тогда была найдена форма обратной связи на сайте — последняя ниточка соединяющая меня на текущий момент с интернет-магазином. В первую очередь я описал проблему переполненного почтового ящика и вставил сообщение об отказе доставить письмо, которое содержало в себе одинарные кавычки…

Начало

На попытку отправить отчёт об ошибке через форму обратной связи, на пару секунд на странице появилась ошибка, в которой угадывался голос MySQL. Поэтому я открыл консоль браузера, повторил запрос и заглянул в ответ сервера:

Читать дальше →

+39

Kurtosis Aug 24 2015 at 13:00

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

10 min

49K

DCA (Data-Centric Alliance) corporate blogMachine learning*Data visualization*Data Mining*Big Data*

Привет, Хабр! В нашей работе часто возникает потребность в выделении сообществ (кластеров) разных объектов: пользователей, сайтов, продуктовых страниц интернет-магазинов. Польза от такой информации весьма многогранна – вот лишь несколько областей практического применения качественных кластеров:

Выделение сегментов пользователей для проведения таргетированных рекламных кампаний.
Использование кластеров в качестве предикторов («фичей») в персональных рекомендациях (в content-based методах или как дополнительная информация в коллаборативной фильтрации).
Снижение размерности в любой задаче машинного обучения, где в качестве фичей выступают страницы или домены, посещенные пользователем.
Сличение товарных URL между различными интернет-магазинами с целью выявления среди них групп, соответствующих одному и тому же товару.
Компактная визуализация — человеку будет проще воспринимать структуру данных.

С точки зрения машинного обучения получение подобных связанных групп выглядит как типичная задача кластеризации. Однако не всегда нам бывают легко доступны фичи наблюдений, в пространстве которых можно было бы искать кластеры. Контентые или семантические фичи достаточно трудоемки в получении, как и интеграция разных источников данных, откуда эти фичи можно было бы достать. Зато у нас есть DMP под названием Facetz.DCA, где на поверхности лежат факты посещений пользователями страниц. Из них легко получить количество посещений сайтов, как каждого в отдельности, так и совместных посещений для каждой пары сайтов. Этой информации уже достаточно для построения графов веб-доменов или продуктовых страниц. Теперь задачу кластеризации можно сформулировать как задачу выделения сообществ в полученных графах.

Читать дальше →

+34

Zalina Aug 18 2015 at 15:44

Статистические задачи идентификации сетевых структур

20 min

9.6K

Яндекс corporate blogEntertaining tasksMathematics*Programming*

В сложных сетях с помощью различных процессов фильтрации могут быть выделены важные сетевые структуры, несущие содержательную информацию о сети. Среди сетевых структур традиционно рассматриваются: максимальное остовное дерево, максимально отфильтрованный планарный граф, отсеченный граф, максимальные клики и максимальные независимые множества отсеченного графа и другие.

В условиях статистической природы исходных данных возникает задача идентификации сетевых структур. Лекция, которую мы выбрали для вас сегодня, посвящена недавнему развитию этой темы в рамках теории одновременной проверки многих статистических гипотез (multiple decision statistical procedures, multiple test procedures). Такой подход позволяет разработать методы оценки статистической неопределенности сетевых структур и выделить оптимальные и устойчивые статистические процедуры идентификации. Оказывается, что сетевые структуры, построенные по вероятностям совпадения знаков, оказываются предпочтительными перед структурами, построенными по классическим корреляциям Пирсона. В рассказе рассмотрены приложения результатов к анализу фондовых рынков.

Доклад был прочитан на факультете компьютерных наук, открытом при поддержке Яндекса в Вышке. Лектор Валерий Калягин — доктор физико-математических наук, ординарный профессор НИУ ВШЭ. Заведует кафедрой прикладной математики и информатики и лабораторией алгоритмов и технологий анализа сетевых структур НИУ ВШЭ в Нижнем Новгороде.

Под катом — полная расшифровка лекции.

Читать дальше →

+27

The_Freeman Aug 2 2015 at 16:29

Генераторы непрерывно распределенных случайных величин

15 min

122K

Algorithms*Mathematics*Programming*

Tutorial

Генератор случайных чисел во многом подобен сексу: когда он хорош — это прекрасно, когда он плох, все равно приятно (Джордж Марсалья, 1984)

Популярность стохастических алгоритмов все растет. Многие из них базируются на генерации большого количества различных случайных величин. Далеко не всегда равномерно распределенных. Здесь я попытался собрать информацию о быстрых и точных генераторах случайных величин с известными распределениями. Задачи могут быть разными, разными могут быть и критерии. Кому-то важно время генерации, кому-то — точность, кому-то — криптоустойчивость, кому-то — скорость сходимости. Лично я исходил из предположения, что мы имеем некий базовый генератор, возвращающий псевдослучайное целое число, равномерно распределенное от 0 до некого RAND_MAX

unsigned long long BasicRandGenerator() {
    unsigned long long randomVariable;
    // some magic here
    ...
    return randomVariable;
}

и что этот генератор достаточно быстрый. Я имею ввиду, что дешевле сгенерировать с десяток случайных чисел, нежели чем посчитать логарифм или возвести в степень одно из них. Это могут быть стандартные генераторы: std::rand(), rand в MATLAB, Java.util.Random и т.д. Но имейте ввиду, что подобные генераторы редко подходят для серьезной работы. Зачастую они проваливают разные статистические тесты. А также, помните, что вы полностью зависите от них и лучше использовать свой собственный генератор, чтобы иметь представление о его работе.

В статье я буду рассказывать об алгоритмах, суть которых должна быть понятна каждому, кто хоть иногда сталкивался с теорией вероятностей. Совсем необязательно быть знакомым с теорией меры, как правило, достаточно примерно понимать, что из себя представляют функция распределения и функция плотности распределения:

Каждый алгоритм я буду сопровождать кодом, небольшим количеством математики и гистограммой из десятка миллионов сгенерированных случайных величин.

Равномерное распределение

Читать дальше →

+40

Kallist Jul 30 2015 at 11:03

Психотипы Бартла и балансировка аудитории

16 min

138K

VK corporate blogGame development*Website development*

Несколько десятилетий назад профессор Университета Эссекса Ричард Алан Бартл придумал модель сегментации игроков по психологическим типам. Сегодня её используют разработчики игр во всем мире, в том числе и в Mail.Ru Group. Например, психотипы Бартла применяются в социальных сетях для оптимизации каталога игр под каждого пользователя. Так что же придумал этот замечательный человек?

30 лет назад Бартл написал одну из первых многопользовательских игр — MUD (Multi-User Dungeon), по имени которой теперь называют целый жанр. Фактически, это прародитель всех современных ММО. Вот такая замечательная консольная текстовая игра:

То, на что опирается Бартл, — это программный код игры, распечатанный для защиты научной работы.

Читать дальше →

+24

Treidge Jul 16 2015 at 12:17

Налоговый суслик. Особенности упрощенной системы налогообложения при работе по договорам с Apple, Google и другими

46 min

54K

Development of mobile applications*Development for Android*Development for iOS*

В данной статье я постараюсь провести краткий юридический ликбез для разработчиков по некоторым положениям Гражданского кодекса, имеющим значение в контексте деятельности индивидуальных предпринимателей и организаций, применяющих упрощенную систему налогообложения, в работе по договорам с Apple, Google и другими компаниями, а также обратить внимание на некоторые не всегда очевидные налоговые нюансы, которые, как показал личный опыт изучения данной темы, довольно часто ускользают от внимания разработчиков или вызывают множество вопрос и споров.

Прочтите внимательно эту статью, если вы применяете упрощенную систему налогообложения с объектом налогообложения «доход» по ставке 6 процентов и продаете игры или приложения в Google Play, Apple App Store, а также прочий цифровой контент — например, 3D-модели — в Steam, Unity Asset Store или на других площадках, в условиях договоров с которыми фигурируют комиссии, агентские вознаграждения и прочие формы разделения выручки между сторонами.

Из материала вы узнаете:

Почему разработчику желательно обладать хотя бы базовой юридической грамотностью
Чем с точки зрения Гражданского кодекса являются игры и приложения и какие права на них есть у разработчиков помимо авторского права
Что такое агентский договор и почему все это важно при работе по договору с Apple или Google
Кто такой налоговый суслик и почему он может превратиться в пушного зверя
Какой «подвох» существует для применяющих «упрощенку» в части определения налоговой базы
Почему налог на добавленную стоимость (НДС) продолжает преследовать нас, даже когда мы не являемся его плательщиками
Как, с точки зрения Федеральной налоговой службы, облагаются НДС внутриигровые покупки (InApp Purchases)

Покажите мне суслика!

+32

ITI_Capital Jul 9 2015 at 09:07

Топ-10 data mining-алгоритмов простым языком

24 min

129K

ITI Capital corporate blogData Mining*Algorithms*

Translation

Примечание переводчика: Мы довольно часто пишем об алгоритмической торговле (вот, например, список литературы по этой теме и соответствующие аналитические материалы) и API для создания торговых роботов, сегодня же речь пойдет непосредственно об алгоритмах, которые можно использовать для анализа различных данных (в том числе на финансовом рынке). Материал является адаптированным переводом статьи американского раработчика и аналитика Рэя Ли.

Сегодня я постараюсь объяснить простыми словами принципы работы 10 самых эффективных data mining-алгоритмов, которые описаны в этом докладе.

Когда вы узнаете, что они собой представляют, как работают, что делают и где применяются, я надеюсь, что вы используете эту статью в качестве отправной точки для дальнейшего изучения принципов data mining.

Читать дальше →

+43

1 2 ...

8

9 10 ...