Comments / Profile of SantyagoSeaman / Habr

How to become an author

Александр Макеев @SantyagoSeaman

User

Profile Publications 2Comments 60Bookmarks 66

NPM и left-pad: мы разучились программировать?

SantyagoSeaman Mar 24 2016 at 23:20

Ух жесть. Битовый сдвиг и конкатенация строки на себя же чтобы немного уменьшить алгоритмическую сложность и нагрузку на GC, но оставив по-сути проблему треша на своём месте… Мир JS жесток и беспощаден. )))

+2

NPM и left-pad: мы разучились программировать?

SantyagoSeaman Mar 24 2016 at 22:09

Да, Вы правы. Тогда push в массив и join. Но никак не тот лютый трындец в сырце.

+3

NPM и left-pad: мы разучились программировать?

SantyagoSeaman Mar 24 2016 at 20:22

Странно, что у автора этой заметки, ведущего инженера Stack Overflow, нет претензий к дичайшему гавнокоду в указанном "ключевом модуле" и что никто до сих пор его не выправил. Делать в цикле конкатенации по количеству необходимых символов с генерацией каждый раз нового String объекта на каждой итерации вместо "return ch.repeat(len — str.length) + str" — это какой-то эпикфейл.

+6

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 22:21

И что? Вопрос же не в том, как хранить и преобразовывать, а в том, чтобы вообще не создавать тяжёлые объекты на каждый запрос, а пользоваться расшаренными. Кеши байткода избавляют от стадии компиляции. Но не избавляют от процесса создания объекта. А это те самые потерянные миллисекунды и процессорное время, которое вполне можно было бы потратить на что-то полезное. Да и конфиги — это малая из бед. Половину аппликейшена можно было бы реюзать если был бы нормальный инструмент. Естественно, апплекейшн пришлось бы изначально проектировать как стейтлесс, но это уже тема для отдельного топика.
Конечно, можно было бы использовать язык, изначально заточенный под event-loop или с легковесными потоками как в Go. Но не вижу никаких препятствий запилить нечто подобное и в Пыхе. Всё равно имхо к этому идёт.

0

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 21:38

Да, это отличный подход, если конфиг не представляет собой здоровенное DOM-дерево с обёрткой вокруг для унификации и упрощения доступа.

0

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 21:22

Шарить что-то между серверами — это совсем другой уровень. Межпроцессный шаринг объектов очень пригодился бы для хранения тяжёлых read-only объектов вроде конфигов. На больших нагрузках может неплохо съэкономить на создании сокета, хендшейке, поиске информации в хранилище, отправке, закрытии соединения, десериализации. Всё это абсолютно лишнее, если уже готовый собранный конфиг лежит в виде zval где-то в памяти.

+1

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 21:14

pthreads — совсем не то
shmop — почти то, если к нему ещё прикрутить мьютексы. И всё равно требует сериализации.
Идеально было бы: высокоуровневая языковая конструкция, позволяющая создавать и использовать объекты в разделяемой памяти с внутренней имплементацией exclusive&shared locking и TTL чтобы у дева голова об это не болела.

+2

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 20:47

Я к тому, что идея shared memory в PHP имеет право на жизнь. Хранить сериализованные данные в одном из хранилищ — это не всегда выход. Собственно, APCU частично решает эту задачу. Но было бы круто вслед за мега-фичей в виде PHP FPM следующим шагом дать нативный инструмент работы с объектами в shared memory.
Мне довелось поработать с true Fast CGI на С++. Это ад. Но сама идея иметь объекты, живущие между запросами, жива и её вполне можно было бы органично имплементировать в стандарте языка.

+1

Badoo перешли на PHP7 и сэкономили $1M

SantyagoSeaman Mar 13 2016 at 17:29

Нужно хранить объекты в памяти? вот вам memcache.

Сериализация-десериализация крупных объектов может стать проблемой. Гораздо логичнее использовать уже созданный объект в shared memory. Конечно, это добавляет головняка с race conditions и на любое обновление данных придётся вешать мьютекс, но производительность сего решения может стоить того. Особенно если задача состоит в хранении крупного иммутабельного объекта вроде конфига, редко меняющегося и часто читаемого.
Данный подход хорош для атомарных сущностей. Если же для инициализации объекта необходима инициализация зависимостей, то тут уже без велосипеда на костылях не обойтись.

0

Архитектура Stack Overflow

SantyagoSeaman Mar 8 2016 at 11:50

Справедливости ради замечу, что есть m4.10xlarge на 40 ядер. Но дорого :)

+1

Повышаем производительность поиска с помощью партиционирования индекса в Apache Solr

SantyagoSeaman Dec 30 2015 at 02:44

В моём понимании splitshard — это скорее скорая помощь при дизбалансе шарды, а не инструмент шардирования. Нативных инструментов шардинга в Solr два: composite и implicit методики шардирования. Оба с предзаданным количеством шард. И split, если что-то пошло не так.
Из моего личного опыта шардирование из коробки на 100 инстансов плюс пара кастомных плагинов а-ла триггеры моего авторства работало на постоянную дозаливку и апдейт 2 ярда+ широких документов как часы. Но изначально был выбран правильный двухуровневый ключ, благодаря которому запросы формировались максимум к 3 шардам.
Строго говоря, сильно смутил только один аргумент в статье «Автоматическая ребалансировка по шардам предполагает, что одна наша партиция может быть разбросана по нескольким шардам». Как это и почему?

ЗЫ. Три Solr инстанса на отдельных портах плюс ZK поднимается для дев-машин за полчаса. Зато каждый дев может сразу прочувствовать, как его запросы будут работать в распределённой среде. Ибо, как говорят у нас в Одессе, это две большие разницы. :)

0

Повышаем производительность поиска с помощью партиционирования индекса в Apache Solr

SantyagoSeaman Dec 29 2015 at 15:46

Почему решили не использовать композитный ключ формата «batchId!docId» и запросы соответственно с указанием _route_? Это бы гарантировало попадание всех документов из одного батча в одну шарду и балансировку по пулу шард без дополнительных бубнов. В случае, если по-факту работы на проде будут появляться перекосы в размерах шард, в качестве решения всё тот же split.

0

Нужен ли человек для построения самообучающихся моделей?

SantyagoSeaman Dec 16 2015 at 15:23

Это может работать только на небольших датасетах. В ситуации, приближенной к боевой, когда одна модель может считаться сутки, рандомный перебор предикторов и поиск цепочки алгоритмов займёт время начиная приближенное к бесконечности.
Очистку данных, генерацию композитных предикторов вообще вряд ли получится автоматизировать.
И самое главное. Получение модели — это прекрасно для теоретиков и конкурсов. Главная задача — получить модель, пригодную к использовании в продакшене. И тут без человека точно не обойтись.

0

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

SantyagoSeaman Nov 27 2015 at 11:59

Да. Open Data очень многим вправит мозги.

0

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

SantyagoSeaman Nov 27 2015 at 00:59

Интересно, что в парламенте в принципе много официально небедных людей. А в прокуратуре — сплошные выбросы. Вообще ни разу не коррумпированная структура, да.
Спасибо за интересные данные.

0

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

SantyagoSeaman Nov 27 2015 at 00:53

Спасибо!
Первый персонаж шикарный. Круглая сирота без семьи и доходов. С квартирой в Киеве и Лексусом.

+5

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

SantyagoSeaman Nov 27 2015 at 00:51

Либо забили. Всё равно никто ни за что не сядет.

0

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

SantyagoSeaman Nov 26 2015 at 17:21

Датасет не смотрел, но судя по графикам действительно есть декларации с нулевыми доходами или это вероятные ошибки парсинга деклараций?

0

Лучше или хуже

SantyagoSeaman Nov 18 2015 at 10:26

Что-то вспомнились из моего детства 4 дискеты, принесенные из института старшим братом моего друга, со словами «Это С++! Самый крутой язык в мире!» И тоненькая жёлтая книжка, сразу начинавшаяся с сакрального «Объект — это инкапсулированная абстракция, которая включает информацию о состоянии и чётко определённое множество протоколов доступа». Что это такое я понял только несколько лет спустя. :)

0

Вышел Magento 2.0 Release Candidate

SantyagoSeaman Nov 9 2015 at 08:57

Спасибо за замечание. В следующей новости о релизе обязательно уточню «лидер opensource ecommerce систем». :)

0

1