Articles / Bookmarks / Profile of Alexey

Алексей Ярыгин @Alexey_Yarygin^{read⁠-⁠only}

Аналитик

Profile Bookmarks 136

nuclight Apr 1 2023 at 23:55

Перспективы развития IT с точки зрения астрологии

Easy

27 min

5.2K

Popular science

Opinion

Не замечал ли ты, читатель, что некоторые времена похожи на другие, бывавшие ранее? Может быть, интересно, когда пройдет мода на докер или вернутся другие, более славные, времена? Почему у Go, Rust, виртулизации, нейросетей и даже самого Веба нет перспектив? Ответы на эти вопросы может дать астрология! (в конце концов, если хомяк торгует на бирже лучше профессионалов, чем астрологи хуже?)

Но сначала придется развеять некоторые мифы и предубеждения просвещением. Сразу следует сказать - изложенное ниже не является противоречащим современному состоянию науки. Более того, для правильного понимания нужно быть в курсе некоторых достижений XX века, тогда как сейчас не только большинство гуманитариев, но и многие технари не знают, что такое хэш-функция. Если готов отбросить предубеждения вроде "ведь газетные гороскопы фигня полная" (нет, мы не про это) или высокомерие к древним людям (вообще-то человеческий мозг не менялся примерно 40 тысяч лет и был таковым для вещей, необходимых тогда для выживания, современный "знающий" человек скорее тупее, так как не выживет в той среде), то - добро пожаловать под кат!

Читать далее (астрология как хэш)

MaxRokatansky Mar 24 2023 at 17:17

5 причин, по которым мы должны ценить HR бизнес-партнеров

6 min

2.9K

Personnel Management*OTUS corporate blog

Translation

Многие из сегодняшних и будущих важнейших бизнес-задач можно решить благодаря опытному HRBP. Отличные HRBP могут привести HR-практику в соответствие с потребностями бизнеса, обеспечивая согласованность всех усилий. Грамотно выстроенное HR бизнес-партнерство может улучшить представление об HR, а также оказать заметное влияние на конечный результат.

Тем не менее, роль HRBP часто плохо определена, поэтому компаниям необходимо знать, каковы их возможности.

iSashok Mar 30 2023 at 10:01

Отстаньте от разработчиков: не надо делать их руководителями просто ради грейда

Easy

6 min

25K

Development Management*Project management*Personnel Management*IT careerГазпромбанк corporate blog

Review

✏️ Technotext 2023

Бич профессии — превращать самого опытного разработчика в плохого менеджера. Я видел ситуации, когда синьор перерастает команду и ему предлагают должность руководителя. Многие соглашались и становились несчастными. И ладно бы только они: страдает-то в итоге команда и компания.

Зачем они соглашаются? Во-первых, потому что они росли всегда и останавливаться страшно. Во-вторых — это часто единственная возможность повышения.

Что мы поменяли у себя в разработке Газпромбанка:

Явно обозначили, что инженер, получающий больше своего руководителя, — обычная ситуация.
Дали возможность расти инженерам дальше после синьора, не меняя свою работу, то есть не становясь руководителями.

Куда можно расти? В хеда профессии — эксперта, к которому может обратиться каждый в компании. Это как Стив Возняк в Apple.

Как это ни странно, в развитой инженерной культуре такие «эксперты выше синьора» — норма. В России я встречал мало компаний с такими фичами, поэтому хочу поделиться практическим опытом того, что это даёт.

Читать дальше →

+77

Vszlo93 Jul 3 2020 at 19:27

9 ключевых алгоритмов машинного обучения простым языком

15 min

83K

Algorithms*Big Data*Machine learning*

From sandbox

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

o6CuFl2Q Jul 8 2019 at 16:05

Анализ производительности запросов в ClickHouse. Доклад Яндекса

18 min

28K

High performance*Open source*Яндекс corporate blogServer Administration*Big Data*

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

+53

FranciscoSuarez Mar 26 2019 at 13:52

Продуктовая аналитика ВКонтакте на базе ClickHouse

10 min

24K

SQL*VK corporate blogBig Data*

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.

Читать дальше →

+29

olegbunin Sep 29 2020 at 17:37

Переезжаем на ClickHouse: 3 года спустя

19 min

22K

System administration*SQL*Конференции Олега Бунина (Онтико) corporate blogDatabase Administration*Big Data*

Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.

Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.

Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.

+35

sab0tazh Sep 7 2021 at 10:12

ClickHouse: Путь джедая, искавшего дом для своих данных

9 min

20K

Big Data*Data storage*Туту.ру corporate blog

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

+25

neoflex Sep 16 2022 at 10:48

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

16 min

System Analysis and Design*Big Data*Data storages*Neoflex corporate blogCloud services*

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

evpak Sep 21 2022 at 15:01

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

17 min

21K

High performance*System Analysis and Design*Web services testing*Product Management*Ozon Tech corporate blog

Technotext Winner 2022

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием — измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не ~~облажаться~~ уронить прод, я расскажу в этой статье.

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon.

+106

Mar 13 2023 at 14:17

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Easy

18 min

32K

System Analysis and Design*Big Data*History of ITData Engineering*Яндекс Практикум corporate blog

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

+21

dima_vs May 5 2022 at 13:52

Внедрение программы обучения Tableau в inDriver

9 min

2.2K

Data Mining*Data visualization*Statistics in ITinDrive.Tech corporate blog

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях.

vctrog Mar 24 2023 at 12:15

6 ошибок, из-за которых менеджеры-джуны остаются джунами

Easy

6 min

12K

Project management*Studying in ITPersonnel Management*KTS corporate blog

Opinion

Привет, я Вика Строгонова, руководитель проектного офиса в KTS. Я веду проекты с 2017 года и прошла путь от младшего менеджера до руководителя проектного офиса. Сейчас в моем портфеле более 20 проектов, в подчинении — 42 человека, среди них разработчики, аналитики и менеджеры.

Текст написан на собственном опыте, поэтому уверена, что есть и другие ошибки, которые я не учла в статье. Буду рада, если поделитесь ошибками джунов, с которыми вы чаще всего сталкиваетесь, в комментариях.

Все типовые проблемы, о которых пойдет речь ниже, касаются менеджеров-джунов или вчерашних стажеров. Это не тайные знания, которые открываются только тем, кто несколько лет отработал на проектах или прошел специальные курсы: это достаточно базовые вещи, которые начинающие менеджеры почему-то упускают.

+34

maxim_babenko Mar 20 2023 at 13:57

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

14 min

57K

Open source*C++*Яндекс corporate blogBig Data*

✏️ Technotext 2023

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

+217

vankastor Feb 21 2023 at 16:28

Методы анализа A/B тестов: как выбрать правильный метод для каждого типа метрик и размера выборки

Medium

10 min

17K

Python*Mobile App Analytics*Product Management*Statistics in ITLiga Stavok corporate blog

Tutorial

Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.

kucev Mar 15 2023 at 09:52

Процесс ELT: основные компоненты, преимущества и инструменты создания

11 min

6.7K

Data Mining*Big Data*Data storage*Data storages*

Translation

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.

Читать дальше →

dvlunin Dec 27 2021 at 15:13

ML-критерии для A/B-тестов

24 min

20K

AvitoTech corporate blog

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

igorgranschikov Aug 1 2022 at 11:00

Как расти менеджерам: подробная инструкция на примере менеджерской линейки Авито

12 min

9.5K

Конференции Олега Бунина (Онтико) corporate blogPersonnel Management*AvitoTech corporate blog

Как расти техническому менеджеру?

Этот вопрос может возникать по разным причинам, например:

- Настоящий ли я Team Lead или Engineering Manager?

- Готов ли я к переходу на следующий уровень?

- Будут ли мои навыки ценны в другой компании? Смогу ли я оказаться на такой же роли?

В статье мы разберемся как системно можно оценить свои менеджерские скиллы и составить для себя индивидуальный план развития, используя для этого менеджерскую карьерную линейку.

dvlunin Jan 17 2023 at 12:13

Критерий Манна-Уитни — самый главный враг A/B-тестов

17 min

37K

Mobile App Analytics*AvitoTech corporate blogStatistics in IT

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок)

+24

yrepear Mar 7 2023 at 11:54

Data Mesh: что это такое и для чего он нужен инженерам

11 min

11K

VK corporate blogBig Data*Data storages*

Translation

Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.

Читать дальше →

+15

3 4 5 6 7