Как стать автором
Обновить
0
Алексей Ярыгин @Alexey_Yaryginread⁠-⁠only

Аналитик

Отправить сообщение

Перспективы развития IT с точки зрения астрологии

Уровень сложностиПростой
Время на прочтение27 мин
Количество просмотров5.2K

Не замечал ли ты, читатель, что некоторые времена похожи на другие, бывавшие ранее? Может быть, интересно, когда пройдет мода на докер или вернутся другие, более славные, времена? Почему у Go, Rust, виртулизации, нейросетей и даже самого Веба нет перспектив? Ответы на эти вопросы может дать астрология! (в конце концов, если хомяк торгует на бирже лучше профессионалов, чем астрологи хуже?)

Но сначала придется развеять некоторые мифы и предубеждения просвещением. Сразу следует сказать - изложенное ниже не является противоречащим современному состоянию науки. Более того, для правильного понимания нужно быть в курсе некоторых достижений XX века, тогда как сейчас не только большинство гуманитариев, но и многие технари не знают, что такое хэш-функция. Если готов отбросить предубеждения вроде "ведь газетные гороскопы фигня полная" (нет, мы не про это) или высокомерие к древним людям (вообще-то человеческий мозг не менялся примерно 40 тысяч лет и был таковым для вещей, необходимых тогда для выживания, современный "знающий" человек скорее тупее, так как не выживет в той среде), то - добро пожаловать под кат!

Читать далее (астрология как хэш)
Всего голосов 32: ↑15 и ↓17+7
Комментарии14

5 причин, по которым мы должны ценить HR бизнес-партнеров

Время на прочтение6 мин
Количество просмотров2.9K

Многие из сегодняшних и будущих важнейших бизнес-задач можно решить благодаря опытному HRBP. Отличные HRBP могут привести HR-практику в соответствие с потребностями бизнеса, обеспечивая согласованность всех усилий. Грамотно выстроенное HR бизнес-партнерство может улучшить представление об HR, а также оказать заметное влияние на конечный результат.

Тем не менее, роль HRBP часто плохо определена, поэтому компаниям необходимо знать, каковы их возможности.

Читать далее
Всего голосов 10: ↑5 и ↓5+1
Комментарии8

Отстаньте от разработчиков: не надо делать их руководителями просто ради грейда

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров25K


Бич профессии — превращать самого опытного разработчика в плохого менеджера. Я видел ситуации, когда синьор перерастает команду и ему предлагают должность руководителя. Многие соглашались и становились несчастными. И ладно бы только они: страдает-то в итоге команда и компания.

Зачем они соглашаются? Во-первых, потому что они росли всегда и останавливаться страшно. Во-вторых — это часто единственная возможность повышения.

Что мы поменяли у себя в разработке Газпромбанка:

  • Явно обозначили, что инженер, получающий больше своего руководителя, — обычная ситуация.
  • Дали возможность расти инженерам дальше после синьора, не меняя свою работу, то есть не становясь руководителями.

Куда можно расти? В хеда профессии — эксперта, к которому может обратиться каждый в компании. Это как Стив Возняк в Apple.

Как это ни странно, в развитой инженерной культуре такие «эксперты выше синьора» — норма. В России я встречал мало компаний с такими фичами, поэтому хочу поделиться практическим опытом того, что это даёт.
Читать дальше →
Всего голосов 77: ↑77 и ↓0+77
Комментарии22

9 ключевых алгоритмов машинного обучения простым языком

Время на прочтение15 мин
Количество просмотров83K
Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.
Читать дальше →
Всего голосов 16: ↑12 и ↓4+12
Комментарии5

Анализ производительности запросов в ClickHouse. Доклад Яндекса

Время на прочтение18 мин
Количество просмотров28K
Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.



Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

Всего голосов 53: ↑53 и ↓0+53
Комментарии5

Продуктовая аналитика ВКонтакте на базе ClickHouse

Время на прочтение10 мин
Количество просмотров24K


Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать дальше →
Всего голосов 37: ↑33 и ↓4+29
Комментарии12

Переезжаем на ClickHouse: 3 года спустя

Время на прочтение19 мин
Количество просмотров22K
Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.

Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.

Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.


Всего голосов 35: ↑35 и ↓0+35
Комментарии9

ClickHouse: Путь джедая, искавшего дом для своих данных

Время на прочтение9 мин
Количество просмотров20K

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

Читать далее
Всего голосов 20: ↑19 и ↓1+25
Комментарии9

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Время на прочтение16 мин
Количество просмотров8K

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии7

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

Время на прочтение17 мин
Количество просмотров20K

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не облажаться уронить прод, я расскажу в этой статье. 

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon. 

Читать далее
Всего голосов 93: ↑92 и ↓1+106
Комментарии7

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Уровень сложностиПростой
Время на прочтение18 мин
Количество просмотров31K

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

Читать далее
Всего голосов 17: ↑15 и ↓2+21
Комментарии6

Внедрение программы обучения Tableau в inDriver

Время на прочтение9 мин
Количество просмотров2.2K

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях. 

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

6 ошибок, из-за которых менеджеры-джуны остаются джунами

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров12K

Привет, я Вика Строгонова, руководитель проектного офиса в KTS. Я веду проекты с 2017 года и прошла путь от младшего менеджера до руководителя проектного офиса. Сейчас в моем портфеле более 20 проектов, в подчинении — 42 человека, среди них  разработчики, аналитики и менеджеры. 

Текст написан на собственном опыте, поэтому уверена, что есть и другие ошибки, которые я не учла в статье. Буду рада, если поделитесь ошибками джунов, с которыми вы чаще всего сталкиваетесь, в комментариях. 

Все типовые проблемы, о которых пойдет речь ниже, касаются менеджеров-джунов или вчерашних стажеров. Это не тайные знания, которые открываются только тем, кто несколько лет отработал на проектах или прошел специальные курсы: это достаточно базовые вещи, которые начинающие менеджеры почему-то упускают. 

Читать далее
Всего голосов 35: ↑33 и ↓2+34
Комментарии14

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Время на прочтение14 мин
Количество просмотров57K

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT,  ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

Читать далее
Всего голосов 176: ↑175 и ↓1+217
Комментарии33

Методы анализа A/B тестов: как выбрать правильный метод для каждого типа метрик и размера выборки

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров16K

Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.

Читать далее
Всего голосов 5: ↑3 и ↓2+1
Комментарии2

Процесс ELT: основные компоненты, преимущества и инструменты создания

Время на прочтение11 мин
Количество просмотров6.7K

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →
Всего голосов 6: ↑5 и ↓1+7
Комментарии1

ML-критерии для A/B-тестов

Время на прочтение24 мин
Количество просмотров20K

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии9

Как расти менеджерам: подробная инструкция на примере менеджерской линейки Авито

Время на прочтение12 мин
Количество просмотров9.4K

Как расти техническому менеджеру?

Этот вопрос может возникать по разным причинам, например:

- Настоящий ли я Team Lead или Engineering Manager?

- Готов ли я к переходу на следующий уровень?

- Будут ли мои навыки ценны в другой компании? Смогу ли я оказаться на такой же роли?

В статье мы разберемся как системно можно оценить свои менеджерские скиллы и составить для себя индивидуальный план развития, используя для этого менеджерскую карьерную линейку.

Читать далее
Всего голосов 9: ↑7 и ↓2+6
Комментарии3

Критерий Манна-Уитни — самый главный враг A/B-тестов

Время на прочтение17 мин
Количество просмотров36K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Всего голосов 21: ↑20 и ↓1+24
Комментарии18

Data Mesh: что это такое и для чего он нужен инженерам

Время на прочтение11 мин
Количество просмотров11K


Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
Читать дальше →
Всего голосов 10: ↑8 и ↓2+15
Комментарии2

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность