• Customer Development или как запустить продукт без провала?

    Если вкратце — никак.

    Продуктовый мир — мир неопределенности. Мы не знаем, что будет в будущем наверняка. При этом все решения продуктового менеджера стоят компании времени и денег. Чтобы принимать наиболее эффективные решения, необходимо опираться на аналитику, метрики и понимать поведение пользователей.



    Для этого продуктовые менеджеры используют методологию проведения глубинного интервью с клиентами, иначе Customer Development, или «кастдев». Вся фишка в том, что мы идем «в поля», щупать рынок, чтобы выявить реальную проблему и потребность пользователя, которые мы хотим решить нашим продуктом, при этом не привязываясь к нему. Представляем, как будто его нет.

    Это позволяет формулировать и быстро проверять новые гипотезы, ценность как раз в быстрой проверке. На один кейс у продакта уходит примерно 1,5-2 года жизни, в среднем продакт учится 10 лет. Вот почему их мало, и они ценятся в бизнесе.
    Читать дальше →
    • +23
    • 2,8k
    • 2
  • Временные ряды в прогнозировании спроса, нагрузки на КЦ, товарных рекомендациях и поиске аномалий

      В статье рассматриваются области применения временных рядов, решаемые задачи, и используемые алгоритмы. Прогнозирование временного ряда используется в таких задачах, как прогнозирование спроса, нагрузки на контактный центр, дорожного и интернет-трафика, решения задачи холодного старта в рекомендательных системах и поиска аномалий в поведении оборудования и пользователей.

      Рассмотрим задачи подробнее.


      Читать дальше →
    • Собираем логи из Nginx с помощью nginx-clickhouse, отправляем в Clickhouse и отображаем в Grafana

        Я из компании Luxoft. В этой статье будет рассматриваться проект nginx-clickhouse, который будет читать логи nginx, отправлять их в clickhouse. Для просмотра аналитики по логам есть дашборд для Grafana.

        Читать дальше →
      • Data Engineer – самая сексуальная профессия XXI века

        Недавно в разговоре с HR’ами одной крупной компании прозвучало «Каждый data engineer, приходящий к нам на интервью, мечтает стать data scientist’ом». Меня это тогда сильно удивило и стало очень обидно за дата инженера, честно говоря.

        Мы здесь (и не только) уже публиковали несколько материалов про data engineer’ов и их ценность для бизнеса – например, интервью с Николаем Марковым или «4 причины стать data engineer», но это было давно. Время идет, материал накапливается, мир развивается, поэтому есть что рассказать.

        Возможно, надо сначала коротко напомнить, из чего складывается круг задач дата инженера (плюс-минус, конечно, т.к. каждая компания может добавлять что-то свое\ что-то из перечисленного может выполняться другими сотрудниками):
        Читать дальше →
      • 9 подходов для выявления аномалий

          В предыдущей статье мы говорили о прогнозировании временных рядов. Логичным продолжением будет статья о выявлении аномалий.

          Применение


          Выявление аномалий используется в таких областях как:

          1) Предсказание поломок оборудования


          Так, в 2010 году Иранские центрифуги были атакованы вирусом Stuxnet, который задал неоптимальный режим работы оборудования и вывел из строя часть оборудования за счет ускоренного износа.

          Если бы на оборудовании использовались алгоритмы поиска аномалий, ситуации выхода из строя можно было избежать.


          Читать дальше →
        • Нейросеть, которая поможет выбрать фильм – «твои вкусы специфичны»

            Привет!

            Бывает смотришь фильм, и в голове только один вопрос – «я что опять попался на кликбейт?». Решим эту проблему и будем смотреть только годное кино. Предлагаю немного поэкспериментировать с данными и написать простую нейросеть для оценки фильма.

            В основе нашего эксперимента лежит технология сентимент-анализа для определения настроения аудитории к какому-либо продукту. В качестве данных берем датасет обзоров пользователей на фильмы IMDb. Среда разработки Google Colab позволит быстро обучать нейросеть благодаря бесплатному доступу к GPU (NVidia Tesla K80).

            Я использую библиотеку Keras, с помощью которой построю универсальную модель для решения подобных задач машинного обучения. Мне понадобится backend TensorFlow, дефолтная версия в Colab 1.15.0, поэтому просто обновим до 2.0.0.

            from __future__ import absolute_import, division, print_function, unicode_literals
            import tensorflow as tf
            !tf_upgrade_v2 -h

            Далее импортируем все необходимые модули для предварительной обработки данных и построения модели. В предыдущих статьях делается акцент на библиотеках, можно заглянуть туда.
            Читать дальше →
          • Вертикальная и горизонтальная карьера в сфере Data Science

              В любой сфере деятельности, как правило, выделяют два типа карьеры: вертикальная и горизонтальная. Вертикальная означает, что человек все меньше делает что-либо руками, а занимается организационными задачами. Горизонтальная означает, что человек растет как специалист, разбираясь во все большем количестве вещей и/или как можно глубже. В этом посте мы пообщались с различными экспертами о тех или иных ролях и позициях, чтобы показать весь ландшафт карьеры сфере Data Science.
              Читать дальше →
              • –1
              • 7,5k
              • 2
            • Тренды продуктовой аналитики нового времени



                О продуктовой аналитике на Хабре пишут не так часто, но публикации, причем хорошие, появляются с завидной регулярностью. Большинство статей о продуктовой аналитике появились за последние пару лет, и это логично — ведь продуктовая разработка становится все более важной как для IT, так и для бизнеса, лишь косвенно связанного с информационными технологиями.

                Здесь же, на Хабре, была опубликована статья, в которой неплохо описаны ожидания компании от продуктового аналитика. Такой специалист должен, во-первых, искать и находить перспективные точки роста продукта, во-вторых, идентифицировать и подтверждать актуальность проблемы путем ее формулировки и масштабирования. Точнее не скажешь. Но продуктовая аналитика развивается, появляются новые инструменты для работы и тренды, которые помогают работать продуктовым аналитикам. Как раз о трендах, в привязке к работе мобильных приложений и сервисов мы и поговорим в этой статье.
                Читать дальше →
                • +14
                • 3,9k
                • 4
              • Целостность данных в микросервисной архитектуре — как её обеспечить без распределенных транзакций и жёсткой связности

                  Всем привет. Как вы, возможно, знаете, раньше я все больше писал и рассказывал про хранилища, Vertica, хранилища больших данных и прочие аналитические вещи. Сейчас в область моей ответственности упали и все остальные базы, не только аналитические, но и OLTP (PostgreSQL), и NOSQL (MongoDB, Redis, Tarantool).


                  Эта ситуация позволила мне взглянуть на организацию, имеющую несколько баз данных, как на организацию, имеющую одну распределенную гетерогенную (разнородную) базу. Единую распределенную гетерогенную базу, состоящую из кучи PostgreSQL, Redis-ов и Монг… И, возможно, из одной-двух баз Vertica.


                  Работа этой единой распределенной базы порождает кучу интересных задач. Прежде всего, с точки зрения бизнеса важно, чтобы с данными, движущимися по такой базе, все было нормально. Я специально не использую здесь термин целостность, consistency, т.к. термин это сложный, и в разных нюансах рассмотрения СУБД (ACID и CAP теорема) он имеет разный смысл.


                  Ситуация с распределенной базой обостряется, если компания пытается перейти на микросервисную архитектуру. Под катом я рассказываю, как обеспечить целостность данных в микросервисной архитектуре без распределенных транзакций и жесткой связности. (А в самом конце объясняю, почему выбрал для статьи такую иллюстрацию).


                  Читать дальше →
                • HighLoad++: презентации от докладчиков Авито, конспекты, фото и впечатления

                    В Сколково отгремела двенадцатая по счету HighLoad++. Конференция собрала больше 3000 участников, профессионалов в области работы с высоконагруженными системами. Коллеги обменивались опытом построения и развития архитектуры крупных проектов, говорили о базах данных, системах хранения, системном администрировании, нагрузочном тестировании, эксплуатации крупных проектов.
                    Мы традиционно принимали активное участие в HighLoad++. В этом посте я хочу поделиться материалами докладчиков от Авито, впечатлениями от конференции. И рассказать, что это за странный синий бак на этом фото.


                    Читать дальше →
                    • +39
                    • 7,3k
                    • 2
                  • Стажировки для разработчиков в Авито: боевые задачи и работа с опытными наставниками

                      Почему работа в боевых проектах высоконагруженной разработки для новичка зачастую лучше короткой летней практики? Почему личный контакт с наставником — залог успешного входа в профессию? И какие они, стажировки для начинающих разработчиков в Авито? В этой статье я отвечаю на все эти вопросы, рассказываю о впечатлениях наставников и стажёров и анонсирую новые стажёрские вакансии в Авито.


                      Читать дальше →
                    • Как мы переделали структуру собеседований, и что из этого вышло

                        Наша команда разработки уже больше 4 лет растёт примерно на 20% в год. Мы постоянно ищем технических специалистов и совершенствуем наём. Перепробовали много подходов, чтобы сделать процесс эффективнее: от изменений порядка этапов отбора до больших конкурсов для аналитиков и программистов. За несколько лет активного подбора мы накопили большой опыт, и сегодня я хочу рассказать о том, как работает часть нашей HR-команды.


                        Под катом описываю, как сейчас у нас выглядит процесс найма в C2C — команду, которая развивает и поддерживает функции Авито для частных пользователей. Мы переделали структуру интервью, разделили его на секции, включили задания по программированию. Нашли собеседующих внутри команды, подготовили их и потренировали совместными скайпами и личными интервью, научили писать отзывы о кандидатах.


                        Читать дальше →
                      • Objectives and Key Results: инструкция по применению

                          Всем привет! Меня зовут Егор, я руковожу кластером App Platform в Авито. Мои команды в основном занимаются разработкой внутренних продуктов, инструментов и процессов — тем, что принято называть платформенной разработкой.


                          Год назад я рассказывал в этом блоге, как мы внедрили и используем performance review. Тогда я упоминал, что мы смотрим на него как на индикатор пользы, которую приносит компании каждый отдельный человек. Понимать это важно и полезно. Это помогает ответить на вопрос «насколько Вася молодец по сравнению с Петей?» и определить, какую премию кому выплатить. Но когда мы переходим на уровень команд, всё становится сильно интереснее. Здесь важно оценить конкретный результат команды и его влияние на успех компании. Высокое среднее значение перфоманса всех членов команды совсем необязательно значит, что команда достигла крутых результатов. Какая-то корреляция точно присутствует, но для оценки фактического вклада команды в успех компании этот инструмент использовать нельзя.


                          Для решения этой и ряда других проблем мы в Авито используем метод OKR — Objectives and Key Results. Он позволяет установить дерево понятных и легко измеримых целей во всей компании, связать результаты различных команд друг с другом и добиться достижения желаемых результатов.


                          С OKR мы живем вот уже почти три года. Начав с одной команды, мы масштабировали процесс до 130 разных структур — отдельных юнитов, вертикалей, кластеров, функций. В этой статье я сфокусируюсь на практических приемах того, как можно использовать OKR, чтобы получить от него пользу.


                          Читать дальше →
                          • +20
                          • 10,9k
                          • 5
                        • Student Talks: Аналитика. Материалы для начинающих

                            25 апреля мы провели очередной митап Avito Student Talks, в этот раз он был посвящён аналитике: карьерному пути, Data Science и продуктовой аналитике. После встречи мы подумали, что её материалы могут быть интересны самой широкой аудитории и решили ими поделиться. В посте — видеозаписи докладов, презентации от спикеров, отзывы слушателей и, конечно, фотоотчёт.


                            Читать дальше →
                          • Как мы боремся с копированием контента, или первая adversarial attack в проде

                              Привет.


                              Вы знали, что платформы для размещения объявлений часто копируют контент у конкурентов, чтобы увеличить количество объявлений у себя? Они делают это так: обзванивают продавцов и предлагают им разместиться на своей платформе. А иногда и вовсе копируют объявления без разрешения пользователей. Авито — популярная площадка, и мы часто сталкиваемся с такой недобросовестной конкуренцией. О том, как мы боремся с этим явлением, читайте под катом.


                              Читать дальше →
                            • Как устроено A/B-тестирование в Авито

                                Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование.


                                А/B эксперименты — ключевой инструмент принятия решений в Авито. В нашем цикле продуктовой разработки А/B-тест является обязательным этапом. Мы проверяем каждую гипотезу и выкатываем только позитивные изменения.


                                Мы собираем сотни метрик и умеем детализировать их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Мы делаем это автоматизированно с помощью единой платформы для экспериментов. В статье я достаточно подробно расскажу, как платформа устроена и мы с вами погрузимся в некоторые интересные технические детали.


                                Читать дальше →
                              • Мы два года развивали свою систему мониторинга. Кликай, чтобы…

                                  Всем привет!


                                  Я уже рассказывал в этом блоге об организации модульной системы мониторинга для микросервисной архитектуры и о переходе с Graphite+Whisper на Graphite+ClickHouse для хранения метрик в условиях высоких нагрузок. После чего мой коллега Сергей Носков писал о самом первом звене нашей системы мониторинга — разработанном нами Bioyino, распределённом масштабируемом агрегаторе метрик.


                                  Пришло время немного освежить информацию о том как мы готовим мониторинг в Авито — последняя наша статья была аж в далеком 2018 году, и за это время было несколько интересных изменений в архитектуре мониторинга, управлении триггерами и нотификациями, различные оптимизации данных в ClickHouse и прочие нововведения, о которых я как раз и хочу вам рассказать.


                                  Читать дальше →
                                • Архитектура хранилищ данных: традиционная и облачная

                                    Привет, Хабр! На тему архитектуры хранилищ данных написано немало, но так лаконично и емко как в статье, на которую я случайно натолкнулся, еще не встречал.

                                    Предлагаю и вам познакомиться с данной статьей в моем переводе. Комментарии и дополнения только приветствуются!


                                    (Источник картинки)
                                    Читать дальше →
                                    • +11
                                    • 21,5k
                                    • 7
                                  • Data replication. Attunity Replicate and Greenplum



                                      В данной статье мне хотелось бы продолжить описание технологий, используемых в Банке ТКС при построении DWH. Статья может быть интересна тем, кто планирует использовать LogMining Change Data Capture (CDC) для репликации данных из операционных источников в онлайн-стэйджинг Хранилища, построенного на основе СУБД GreenPlum.

                                      Читать дальше
                                    • История платформ игровой аналитики

                                      • Перевод
                                      image

                                      С момента выпуска консоли Dreamcast и появления модемного адаптера разработчики игр получили возможность собирать данные от игроков об их поведении в естественной среде обитания. На самом деле история игровой аналитики началась со старых PC-игр наподобие EverQuest, выпущенной в 1999 году. Игровые серверы были необходимы для авторизации пользователей и заполнения миров, но в то же время обеспечивали возможность записи данных об игровом процессе.

                                      С 1999 года ситуация со сбором и анализом данных существенно изменилась. Вместо хранения данных локально в виде log-файлов, современные системы могут отслеживать действия и применять машинное обучение практически в реальном времени. Я расскажу о четырёх этапах развития игровой аналитики, которые выделил за время своего пребывания в игровой индустрии:

                                      1. Обычные файлы: данные сохраняются локально на игровых серверах
                                      2. Базы данных: данные получаются как простые файлы и загружаются в базу данных
                                      3. «Озёра данных» (Data Lakes): данные сохраняются в Hadoop/S3, а затем загружаются в базу данных
                                      4. Бессерверный этап: для хранения и выполнения запросов используются услуги с удалённым управлением (managed services)

                                      Каждый из этих этапов эволюции поддерживал всё больший объём собираемых данных и снижал задержку между сбором данных и выполнением анализа. В этом посте я представлю примеры систем каждой из этих эпох и расскажу о плюсах и минусах каждого подхода.
                                      Читать дальше →