Pull to refresh
0
Алексей Ярыгин @Alexey_Yaryginread⁠-⁠only

Аналитик

Send message

Перспективы развития IT с точки зрения астрологии

Level of difficultyEasy
Reading time27 min
Views5.2K

Не замечал ли ты, читатель, что некоторые времена похожи на другие, бывавшие ранее? Может быть, интересно, когда пройдет мода на докер или вернутся другие, более славные, времена? Почему у Go, Rust, виртулизации, нейросетей и даже самого Веба нет перспектив? Ответы на эти вопросы может дать астрология! (в конце концов, если хомяк торгует на бирже лучше профессионалов, чем астрологи хуже?)

Но сначала придется развеять некоторые мифы и предубеждения просвещением. Сразу следует сказать - изложенное ниже не является противоречащим современному состоянию науки. Более того, для правильного понимания нужно быть в курсе некоторых достижений XX века, тогда как сейчас не только большинство гуманитариев, но и многие технари не знают, что такое хэш-функция. Если готов отбросить предубеждения вроде "ведь газетные гороскопы фигня полная" (нет, мы не про это) или высокомерие к древним людям (вообще-то человеческий мозг не менялся примерно 40 тысяч лет и был таковым для вещей, необходимых тогда для выживания, современный "знающий" человек скорее тупее, так как не выживет в той среде), то - добро пожаловать под кат!

Читать далее (астрология как хэш)
Total votes 32: ↑15 and ↓17+7
Comments14

5 причин, по которым мы должны ценить HR бизнес-партнеров

Reading time6 min
Views2.9K

Многие из сегодняшних и будущих важнейших бизнес-задач можно решить благодаря опытному HRBP. Отличные HRBP могут привести HR-практику в соответствие с потребностями бизнеса, обеспечивая согласованность всех усилий. Грамотно выстроенное HR бизнес-партнерство может улучшить представление об HR, а также оказать заметное влияние на конечный результат.

Тем не менее, роль HRBP часто плохо определена, поэтому компаниям необходимо знать, каковы их возможности.

Читать далее
Total votes 10: ↑5 and ↓5+1
Comments8

Отстаньте от разработчиков: не надо делать их руководителями просто ради грейда

Level of difficultyEasy
Reading time6 min
Views25K


Бич профессии — превращать самого опытного разработчика в плохого менеджера. Я видел ситуации, когда синьор перерастает команду и ему предлагают должность руководителя. Многие соглашались и становились несчастными. И ладно бы только они: страдает-то в итоге команда и компания.

Зачем они соглашаются? Во-первых, потому что они росли всегда и останавливаться страшно. Во-вторых — это часто единственная возможность повышения.

Что мы поменяли у себя в разработке Газпромбанка:

  • Явно обозначили, что инженер, получающий больше своего руководителя, — обычная ситуация.
  • Дали возможность расти инженерам дальше после синьора, не меняя свою работу, то есть не становясь руководителями.

Куда можно расти? В хеда профессии — эксперта, к которому может обратиться каждый в компании. Это как Стив Возняк в Apple.

Как это ни странно, в развитой инженерной культуре такие «эксперты выше синьора» — норма. В России я встречал мало компаний с такими фичами, поэтому хочу поделиться практическим опытом того, что это даёт.
Читать дальше →
Total votes 77: ↑77 and ↓0+77
Comments22

9 ключевых алгоритмов машинного обучения простым языком

Reading time15 min
Views83K
Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.
Читать дальше →
Total votes 16: ↑12 and ↓4+12
Comments5

Анализ производительности запросов в ClickHouse. Доклад Яндекса

Reading time18 min
Views28K
Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.



Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

Total votes 53: ↑53 and ↓0+53
Comments5

Продуктовая аналитика ВКонтакте на базе ClickHouse

Reading time10 min
Views24K


Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.
Читать дальше →
Total votes 37: ↑33 and ↓4+29
Comments12

Переезжаем на ClickHouse: 3 года спустя

Reading time19 min
Views22K
Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.

Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.

Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.


Total votes 35: ↑35 and ↓0+35
Comments9

ClickHouse: Путь джедая, искавшего дом для своих данных

Reading time9 min
Views20K

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

Читать далее
Total votes 20: ↑19 and ↓1+25
Comments9

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

Reading time16 min
Views8K

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments7

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

Reading time17 min
Views21K

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не облажаться уронить прод, я расскажу в этой статье. 

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon. 

Читать далее
Total votes 93: ↑92 and ↓1+106
Comments7

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Level of difficultyEasy
Reading time18 min
Views32K

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

Читать далее
Total votes 17: ↑15 and ↓2+21
Comments6

Внедрение программы обучения Tableau в inDriver

Reading time9 min
Views2.2K

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях. 

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments0

6 ошибок, из-за которых менеджеры-джуны остаются джунами

Level of difficultyEasy
Reading time6 min
Views12K

Привет, я Вика Строгонова, руководитель проектного офиса в KTS. Я веду проекты с 2017 года и прошла путь от младшего менеджера до руководителя проектного офиса. Сейчас в моем портфеле более 20 проектов, в подчинении — 42 человека, среди них  разработчики, аналитики и менеджеры. 

Текст написан на собственном опыте, поэтому уверена, что есть и другие ошибки, которые я не учла в статье. Буду рада, если поделитесь ошибками джунов, с которыми вы чаще всего сталкиваетесь, в комментариях. 

Все типовые проблемы, о которых пойдет речь ниже, касаются менеджеров-джунов или вчерашних стажеров. Это не тайные знания, которые открываются только тем, кто несколько лет отработал на проектах или прошел специальные курсы: это достаточно базовые вещи, которые начинающие менеджеры почему-то упускают. 

Читать далее
Total votes 35: ↑33 and ↓2+34
Comments14

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

Reading time14 min
Views57K

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT,  ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

Читать далее
Total votes 176: ↑175 and ↓1+217
Comments33

Методы анализа A/B тестов: как выбрать правильный метод для каждого типа метрик и размера выборки

Level of difficultyMedium
Reading time10 min
Views17K

Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.

Читать далее
Total votes 5: ↑3 and ↓2+1
Comments2

Процесс ELT: основные компоненты, преимущества и инструменты создания

Reading time11 min
Views6.7K

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →
Total votes 6: ↑5 and ↓1+7
Comments1

ML-критерии для A/B-тестов

Reading time24 min
Views20K

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments9

Как расти менеджерам: подробная инструкция на примере менеджерской линейки Авито

Reading time12 min
Views9.5K

Как расти техническому менеджеру?

Этот вопрос может возникать по разным причинам, например:

- Настоящий ли я Team Lead или Engineering Manager?

- Готов ли я к переходу на следующий уровень?

- Будут ли мои навыки ценны в другой компании? Смогу ли я оказаться на такой же роли?

В статье мы разберемся как системно можно оценить свои менеджерские скиллы и составить для себя индивидуальный план развития, используя для этого менеджерскую карьерную линейку.

Читать далее
Total votes 9: ↑7 and ↓2+6
Comments3

Критерий Манна-Уитни — самый главный враг A/B-тестов

Reading time17 min
Views37K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Total votes 21: ↑20 and ↓1+24
Comments18

Data Mesh: что это такое и для чего он нужен инженерам

Reading time11 min
Views11K


Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.
Читать дальше →
Total votes 10: ↑8 and ↓2+15
Comments2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity