Статьи / Закладки / Профиль Alexey

Алексей Ярыгин @Alexey_Yarygin^{read⁠-⁠only}

Аналитик

Профиль Закладки 136

nuclight 1 апр 2023 в 23:55

Перспективы развития IT с точки зрения астрологии

Простой

27 мин

5.2K

Научно-популярное

Мнение

Не замечал ли ты, читатель, что некоторые времена похожи на другие, бывавшие ранее? Может быть, интересно, когда пройдет мода на докер или вернутся другие, более славные, времена? Почему у Go, Rust, виртулизации, нейросетей и даже самого Веба нет перспектив? Ответы на эти вопросы может дать астрология! (в конце концов, если хомяк торгует на бирже лучше профессионалов, чем астрологи хуже?)

Но сначала придется развеять некоторые мифы и предубеждения просвещением. Сразу следует сказать - изложенное ниже не является противоречащим современному состоянию науки. Более того, для правильного понимания нужно быть в курсе некоторых достижений XX века, тогда как сейчас не только большинство гуманитариев, но и многие технари не знают, что такое хэш-функция. Если готов отбросить предубеждения вроде "ведь газетные гороскопы фигня полная" (нет, мы не про это) или высокомерие к древним людям (вообще-то человеческий мозг не менялся примерно 40 тысяч лет и был таковым для вещей, необходимых тогда для выживания, современный "знающий" человек скорее тупее, так как не выживет в той среде), то - добро пожаловать под кат!

Читать далее (астрология как хэш)

MaxRokatansky 24 мар 2023 в 17:17

5 причин, по которым мы должны ценить HR бизнес-партнеров

6 мин

2.9K

Управление персоналом*Блог компании OTUS

Перевод

Многие из сегодняшних и будущих важнейших бизнес-задач можно решить благодаря опытному HRBP. Отличные HRBP могут привести HR-практику в соответствие с потребностями бизнеса, обеспечивая согласованность всех усилий. Грамотно выстроенное HR бизнес-партнерство может улучшить представление об HR, а также оказать заметное влияние на конечный результат.

Тем не менее, роль HRBP часто плохо определена, поэтому компаниям необходимо знать, каковы их возможности.

iSashok 30 мар 2023 в 10:01

Отстаньте от разработчиков: не надо делать их руководителями просто ради грейда

Простой

6 мин

25K

Управление разработкой*Управление проектами*Управление персоналом*Карьера в IT-индустрииБлог компании Газпромбанк

Обзор

✏️ Технотекст 2023

Бич профессии — превращать самого опытного разработчика в плохого менеджера. Я видел ситуации, когда синьор перерастает команду и ему предлагают должность руководителя. Многие соглашались и становились несчастными. И ладно бы только они: страдает-то в итоге команда и компания.

Зачем они соглашаются? Во-первых, потому что они росли всегда и останавливаться страшно. Во-вторых — это часто единственная возможность повышения.

Что мы поменяли у себя в разработке Газпромбанка:

Явно обозначили, что инженер, получающий больше своего руководителя, — обычная ситуация.
Дали возможность расти инженерам дальше после синьора, не меняя свою работу, то есть не становясь руководителями.

Куда можно расти? В хеда профессии — эксперта, к которому может обратиться каждый в компании. Это как Стив Возняк в Apple.

Как это ни странно, в развитой инженерной культуре такие «эксперты выше синьора» — норма. В России я встречал мало компаний с такими фичами, поэтому хочу поделиться практическим опытом того, что это даёт.

Читать дальше →

+77

Vszlo93 3 июл 2020 в 19:27

9 ключевых алгоритмов машинного обучения простым языком

15 мин

83K

Алгоритмы*Big Data*Машинное обучение*

Из песочницы

Привет, Хабр! Представляю вашему вниманию перевод статьи «9 Key Machine Learning Algorithms Explained in Plain English» автора Nick McCullum.

Машинное обучение (МО) уже меняет мир. Google использует МО предлагая и показывая ответы на поисковые запросы пользователей. Netflix использует его, чтобы рекомендовать вам фильмы на вечер. А Facebook использует его, чтобы предложить вам новых друзей, которых вы можете знать.

Машинное обучение никогда еще не было настолько важным и, в тоже время, настолько трудным для изучения. Эта область полна жаргонов, а количество разных алгоритмов МО растет с каждым годом.

Эта статья познакомит вас с фундаментальными концепциями в области машинного обучения. А конкретнее, мы обсудим основные концепции 9ти самых важных алгоритмов МО на сегодняшний день.

Читать дальше →

+12

o6CuFl2Q 8 июл 2019 в 16:05

Анализ производительности запросов в ClickHouse. Доклад Яндекса

18 мин

28K

Высокая производительность*Open source*Блог компании ЯндексСерверное администрирование*Big Data*

Что делать, если ваш запрос к базе выполняется недостаточно быстро? Как узнать, оптимально ли запрос использует вычислительные ресурсы или его можно ускорить? На последней конференции HighLoad++ в Москве я рассказал об интроспекции производительности запросов — и о том, что даёт СУБД ClickHouse, и о возможностях ОС, которые должны быть известны каждому.

Каждый раз, когда я делаю запрос, меня волнует не только результат, но и то, что этот запрос делает. Например, он работает одну секунду. Много это или мало? Я всегда думаю: а почему не полсекунды? Потом что-нибудь оптимизирую, ускоряю, и он работает 10 мс. Обычно я доволен. Но все-таки я стараюсь в этом случае сделать недовольное выражение лица и спросить: «Почему не 5 мс?» Как можно выяснить, на что тратится время при обработке запроса? Можно ли его в принципе ускорить?

+53

FranciscoSuarez 26 мар 2019 в 13:52

Продуктовая аналитика ВКонтакте на базе ClickHouse

10 мин

24K

SQL*Блог компании VKBig Data*

Развивая любой продукт, будь то видеосервис или лента, истории или статьи, хочется уметь измерять условное «счастье» пользователя. Понимать, делаем мы своими изменениями лучше или хуже, корректировать направление развития продукта, опираясь не на интуицию и собственные ощущения, а на метрики и цифры, в которые можно верить.

В этой статье я расскажу, как нам удалось запустить продуктовую статистику и аналитику на сервисе с 97-миллионной месячной аудиторией, получив при этом чрезвычайно высокую производительность аналитических запросов. Речь пойдёт о ClickHouse, используемых движках и особенностях запросов. Я опишу подход к агрегации данных, который позволяет нам за доли секунды получать сложные метрики, и расскажу о преобразовании и тестировании данных.

Сейчас у нас около 6 миллиардов продуктовых событий в сутки, в ближайшее время дойдём до 20–25 миллиардов. А дальше — не такими быстрыми темпами поднимемся до 40–50 миллиардов к концу года, когда опишем все интересующие нас продуктовые события.

1 rows in set. Elapsed: 0.287 sec. Processed 59.85 billion rows, 59.85 GB (208.16 billion rows/s., 208.16 GB/s.)

Подробности под катом.

Читать дальше →

+29

olegbunin 29 сен 2020 в 17:37

Переезжаем на ClickHouse: 3 года спустя

19 мин

22K

Системное администрирование*SQL*Блог компании Конференции Олега Бунина (Онтико)Администрирование баз данных*Big Data*

Три года назад Виктор Тарнавский и Алексей Миловидов из Яндекса на сцене HighLoad++ рассказывали, какой ClickHouse хороший, и как он не тормозит. А на соседней сцене был Александр Зайцев с докладом о переезде на ClickHouse с другой аналитической СУБД и с выводом, что ClickHouse, конечно, хороший, но не очень удобный. Когда в 2016 году компания LifeStreet, в которой тогда работал Александр, переводила мультипетабайтовую аналитическую систему на ClickHouse, это была увлекательная «дорога из желтого кирпича», полная неведомых опасностей — ClickHouse тогда напоминал минное поле.

Три года спустя ClickHouse стал гораздо лучше — за это время Александр основал компанию Altinity, которая не только помогает переезжать на ClickHouse десяткам проектов, но и совершенствует сам продукт вместе с коллегами из Яндекса. Сейчас ClickHouse все еще не беззаботная прогулка, но уже и не минное поле.

Александр занимается распределенными системами с 2003 года, разрабатывал крупные проекты на MySQL, Oracle и Vertica. На прошедшей HighLoad++ 2019 Александр, один из пионеров использования ClickHouse, рассказал, что сейчас из себя представляет эта СУБД. Мы узнаем про основные особенности ClickHouse: чем он отличается от других систем и в каких случаях его эффективнее использовать. На примерах рассмотрим свежие и проверенные проектами практики по построению систем на ClickHouse.

+35

sab0tazh 7 сен 2021 в 10:12

ClickHouse: Путь джедая, искавшего дом для своих данных

9 мин

20K

Big Data*Хранение данных*Блог компании Туту.ру

В разные эпохи развития нашего проекта в качестве основного хранилища которое было как источник данных для аналитики у нас были хранилища MySQL, ElasitcSearch, Exasol и ClickHouse. Последний нам очень нравится и вообще вызывает дикий восторг как инструмент для работы с большими массивами данных, но если посчитать итоговую стоимость владения с учётом внедрения кластера, обучения и поддержки — лучше подумайте два раза, прежде чем тащить его в ваше стек. На наших объёмах данных вложенные усилия окупаются, но если бы мы были чуть меньше, то, наверное, экономика не сошлась бы.

Главная проблема ClickHouse — это практическое отсутствие удобных и стабильно работающих инструментов для эксплуатации и большое кол-во решение рядом в погоне добиться того же пользовательского опыта как при работе с классическим RDBMS (MySQL или PostgreSQL). Вам придется приложить не мало усилий чтобы понять как эффективно применить clickhouse для ваших задач анализировать придется много: начиная от вопросов развертывания до выбора оптимальных моделей данных под профиль вашей нагрузки, в общем доступе не так много рекомендаций по выбору конфигураций под разные типы задач.

С другой стороны, его киллер-фича — это возможность работать с огромными массивами данных невероятно быстро для решений в этой области, то что раньше нам приходилось делать в Spark или через другие реализации map reduce, теперь мы можем делать внутри clickhouse. И бесплатно, потому что такими же плюсами обладают многие MPP решения вроде Vertica или Exasol. Но ClickHouse открытый, и за это мы платим налог на использование не прогнозируемым объемом поддержки или развития системы. Не всем это подходит: например, есть опыт компаний, которые сначала было влезли в это дело, потом поняли, что это не то — и взяли платные продукты с платной поддержкой с экспертизой в решении архитектурных задач именно их продуктами. В платных продуктах есть готовые инструменты, которые понятно, как применять.

+25

neoflex 16 сен 2022 в 10:48

Особенности построения хранилища данных на базе ClickHouse в Yandex Cloud

16 мин

Анализ и проектирование систем*Big Data*Хранилища данных*Блог компании NeoflexОблачные сервисы*

В данной статье делимся опытом внедрения решения на базе СУБД ClickHouse и сервисов Yandex Cloud. Мы не коснёмся тонких настроек ClickHouse или его масштабирования, но затронем достаточно интересные на наш взгляд темы:

• как загружать данные из On-premise в облачный ClickHouse с использованием сервисов Yandex Cloud – Functions, Object Storage, Message Queue;

• как обрабатывать/преобразовывать данные в облачном ClickHouse – очищать и строить витрины; какие «подводные камни» нам встретились на этом пути.

evpak 21 сен 2022 в 15:01

Без А/B результат XЗ, или Как построить высоконагруженную платформу А/B-тестов

17 мин

20K

Высокая производительность*Анализ и проектирование систем*Тестирование веб-сервисов*Управление продуктом*Блог компании Ozon Tech

Победитель Технотекст 2022

Один из важных вопросов как в нашей жизни, так и в бизнесе, и в IT — вопрос эффективности. Эффективно ли мы планируем наше время, те ли задачи решает бизнес, тот ли код мы оптимизируем? Чтобы ответить на эти вопросы, результат должен обладать главным критерием — измеримостью. Измеримость результата новых фич для бизнеса и IT обеспечивает платформа А/B-тестов. О том, как её можно построить, выдерживать большой RPS и при этом не ~~облажаться~~ уронить прод, я расскажу в этой статье.

В конце статьи вы узнаете, как мы задетектили проблемы инфраструктуры, оптимизация которых значительно повлияла на скорость всего Ozon.

+106

13 мар 2023 в 14:17

Откуда есть пошла аналитика и что отличает DS, DA, BA и SA

Простой

18 мин

31K

Анализ и проектирование систем*Big Data*История ITData Engineering*Блог компании Яндекс Практикум

Каждому из нас приходится принимать решения и иметь дело с их последствиями. Если речь идёт о бизнесе, то верный выбор может принести кругленькую сумму денег, а неверный — стоить целого состояния. Неудивительно, что сейчас в моде data-driven-подход, при котором каждое бизнес-решение принимается на основе объективных данных. Преобразованием данных в решения занимаются аналитики: финансовые, инвестиционные, продуктовые, аналитики рисков — им нет числа, как и строкам в их таблицах.

Разновидностей аналитиков стало уже так много, что в них немудрено и запутаться. Под катом мы разберём, кто такие аналитики данных, системные аналитики, бизнес-аналитики и дата-сайентисты: чем они отличаются, что у них общего, какие навыки нужны, чтобы стать одним из них. А заодно — вспомним первопроходцев, выдающихся аналитиков прошлого и над какими задачами они работали.

+21

dima_vs 5 мая 2022 в 13:52

Внедрение программы обучения Tableau в inDriver

9 мин

2.2K

Data Mining*Визуализация данных*Статистика в ITБлог компании inDrive.Tech

Всем привет! Хочу поделиться новостями о том, как развивается BI-платформа в inDriver. В прошлом августе я писал о выборе платформы, а сегодня расскажу, как мы внедрили программу обучения Tableau в компании, чтобы развивать нашу self-service аналитику и децентрализовать процесс анализа данных.

Перед тем, как начать рассказ про наш тернистый путь из проб, ошибок и успехов, хочу сделать небольшое лирическое отступление о том, из каких больших структурных блоков состоит наша BI-платформа. Их 3 — архитектура, self-service и репортинг. Подробнее о каждом блоке я буду рассказывать в этой и следующих статьях.

vctrog 24 мар 2023 в 12:15

6 ошибок, из-за которых менеджеры-джуны остаются джунами

Простой

6 мин

12K

Управление проектами*Учебный процесс в ITУправление персоналом*Блог компании KTS

Мнение

Привет, я Вика Строгонова, руководитель проектного офиса в KTS. Я веду проекты с 2017 года и прошла путь от младшего менеджера до руководителя проектного офиса. Сейчас в моем портфеле более 20 проектов, в подчинении — 42 человека, среди них разработчики, аналитики и менеджеры.

Текст написан на собственном опыте, поэтому уверена, что есть и другие ошибки, которые я не учла в статье. Буду рада, если поделитесь ошибками джунов, с которыми вы чаще всего сталкиваетесь, в комментариях.

Все типовые проблемы, о которых пойдет речь ниже, касаются менеджеров-джунов или вчерашних стажеров. Это не тайные знания, которые открываются только тем, кто несколько лет отработал на проектах или прошел специальные курсы: это достаточно базовые вещи, которые начинающие менеджеры почему-то упускают.

+34

maxim_babenko 20 мар 2023 в 13:57

YTsaurus: основная система для хранения и обработки данных Яндекса теперь open source

14 мин

57K

Open source*C++*Блог компании ЯндексBig Data*

✏️ Технотекст 2023

Привет! Меня зовут Максим Бабенко, я руковожу отделом технологий распределённых вычислений в Яндексе. Сегодня мы выложили в опенсорс платформу YTsaurus — одну из основных инфраструктурных BigData-систем, разработанных в Яндексе.

YTsaurus — результат почти десятилетнего труда, которым нам хочется поделиться с миром. В этой статье мы расскажем историю возникновения YT, ответим на вопрос, зачем нужен YTsaurus, опишем ключевые возможности системы и обозначим область её применения.

В Github-репозитории находится серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python. Всё это — под лицензией Apache 2.0, что позволяет всем желающим загрузить его на свои серверы, а также дорабатывать его под свои нужды.

+217

vankastor 21 фев 2023 в 16:28

Методы анализа A/B тестов: как выбрать правильный метод для каждого типа метрик и размера выборки

Средний

10 мин

16K

Python*Аналитика мобильных приложений*Управление продуктом*Статистика в ITБлог компании Лига Ставок

Туториал

Все, кто работает с аналитикой и продуктами, знают, что проведение А/Б тестирования — важный шаг для повышения эффективности бизнеса. Однако не всегда понятно, как проводить этот тест и какие статистические методы использовать. В этой статье я постараюсь помочь вам разобраться в этом вопросе. Вместо теоретических рассуждений будут практические советы, как выбирать метрики, как использовать различные статистические методы и примеры кода на Python, которые можно использовать сразу же. Эта статья станет незаменимой шпаргалкой для всех, кто планирует провести А/Б тест, и будет полезной как для новичков, так и для профессионалов.

kucev 15 мар 2023 в 09:52

Процесс ELT: основные компоненты, преимущества и инструменты создания

11 мин

6.7K

Data Mining*Big Data*Хранение данных*Хранилища данных*

Перевод

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.

Читать дальше →

dvlunin 27 дек 2021 в 15:13

ML-критерии для A/B-тестов

24 мин

20K

Блог компании AvitoTech

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

igorgranschikov 1 авг 2022 в 11:00

Как расти менеджерам: подробная инструкция на примере менеджерской линейки Авито

12 мин

9.4K

Блог компании Конференции Олега Бунина (Онтико)Управление персоналом*Блог компании AvitoTech

Как расти техническому менеджеру?

Этот вопрос может возникать по разным причинам, например:

- Настоящий ли я Team Lead или Engineering Manager?

- Готов ли я к переходу на следующий уровень?

- Будут ли мои навыки ценны в другой компании? Смогу ли я оказаться на такой же роли?

В статье мы разберемся как системно можно оценить свои менеджерские скиллы и составить для себя индивидуальный план развития, используя для этого менеджерскую карьерную линейку.

dvlunin 17 янв 2023 в 12:13

Критерий Манна-Уитни — самый главный враг A/B-тестов

17 мин

36K

Аналитика мобильных приложений*Блог компании AvitoTechСтатистика в IT

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок)

+24

yrepear 7 мар 2023 в 11:54

Data Mesh: что это такое и для чего он нужен инженерам

11 мин

11K

Блог компании VKBig Data*Хранилища данных*

Перевод

Команда VK Cloud перевела статью о новом подходе к построению архитектуры данных Data Mesh с помощью lakeFS — системы управления версиями данных с открытым исходным кодом, которая преобразует хранилище объектов в Git-подобные репозитории. Разбираем, что такое Data Mesh, суть этого подхода и как с его помощью повысить эффективность работы с данными.

Читать дальше →

+15

3 4 5 6 7