company_banner
  • ДНК (Деление на команды) – визуализация взаимосвязей людей и команд

      image
      На рисунке – граф, визуализирующий межкомандное взаимодействие в Дивизионе развития и сопровождения производственного процесса (SberWorks) Сбера

      Мы решили разобраться, как выглядит общение участников команд в цифровых каналах Сбера, а точнее, в трех ключевых инструментах производственного процесса:

      1. Jira – тикет-системе для управления задачами
      2. Confluence – вики-системе для управления требованиями
      3. Bitbucket – системе управления кодом

      И попробовать понять по цифровым следам, как на самом деле взаимодействуют команды и люди между собой, определить соответствующие зависимости. Иными словами, увидеть настоящую структуру работы, которая отражается в инструментах производственного процесса.
      Мы изучили каждый источник, определили, какие связи он иллюстрирует, как люди работают совместно, как именно они общаются и решают поставленные задачи.

      Изучив связи, мы присвоили веса самому источнику данных, конкретным видам связи и на базе данных построили граф взаимодействий. При формировании графа по источникам, которые были упомянуты выше, все-таки принимается во внимание, что сотрудники обсуждают именно рабочие вопросы, а не котиков.

      В итоге, получили следующую визуализацию коммуникаций:

      • Точка – это человек или команда.
      • Линия между точками – свидетельствует о наличии связи, которая является агрегатом взаимодействий, найденных в источниках данных, которые мы определили у людей. У линии связи есть свой вес, начало и конец.
      Читать дальше →
      • +13
      • 1,5k
      • 1
    • Рассказываем про библиотеку для Process Mining: теперь SberPM в открытом доступе

        Process Mining – это подход к извлечению, анализу и оптимизации процессов на основе данных из так называемых журналов событий (event logs), доступных в корпоративных ИТ-системах. Являясь своеобразным мостиком между Data Mining и Process Management, он выводит исследование бизнес-процессов на принципиально новый уровень. Подробнее о том, чем полезен такой подход и как мы его применяем вот здесь .

        В конце 2020 года в открытый доступ вышла разработанная Сбером python-библиотека SberPM – первая в России мультифункциональная библиотека для интеллектуального анализа процессов и клиентских путей. Ниже про то, как она устроена и как ей пользоваться.

        image

        Читать дальше →
        • +23
        • 3,2k
        • 7
      • Встречи планирования разработки в пандемию, или Как устроить электро PIP

          Сегодня мне хотелось бы с помощью моих коллег Agile-коучей Ани Родионовой, Макса Зотова и владельца продукта в Трайбе «Розничное взыскание и урегулирование» Свята Божухина рассказать о практике применения интересного инструмента. Итак, речь пойдёт о Program Increment Planning Meeting aka PI Planning.

          Это метод планирования из SAFe (Scaled Agile Framework) — гибкого фреймворка для крупных компаний. Ну, знаете, это когда люди стоят у стены, оклеенной стикерами, лепят всякие ниточки от одного стикера к другому, но при этом в городе не орудует маньяк.

          Ниже — пример места встречи одной из команд для PI в Сбере (обратите внимание на ту самую стену на заднем плане):

          image

          Все мы помним, что в марте 2020 года всё стало иначе: пандемия и режим самоизоляции внесли свои коррективы. Мы «переобувались на лету» за неделю, а то, что ранее, как нам казалось, было возможно только оффлайн, переместилось в онлайн.
          Читать дальше →
        • Всё, что нам нужно — это генерация

          • Tutorial

          Применяем ruGPT-3 в популярных задачах и показываем, зачем языковым моделям триллион параметров


          С наступлением 2021 в NLP продолжается гонка «больше — лучше», захватывая новые архитектуры. Пальма первенства самой большой языковой модели в 2020 году принадлежала GPT-3 от OpenAI с 175 миллиардами параметров — но недолго. Модель GShard с помощью Mixture-of-Experts повысила планку до 600 миллиардов параметров, а затем и Google Brain заявил о разработке архитектуры Switch Transformer с 1,6 триллионами параметров (и тоже является MoE). Насколько повышение результатов за счет объема полезно для индустрии? Тот же Switch Transformer с его триллионом параметров далеко не на 1 месте в лидербордах.

          Огромные языковые модели (Enormous Language Models, теперь это термин, им посвящен отдельный воркшоп конференции ICLR 2021) показывают действительно интересные результаты — не только в традиционных задачах ML, но и в новых сферах применения: генерации всего того, что раньше генерировать без ошибок было нельзя — музыку, изображения попиксельно, программный код и т.д. Из всех традиционных форм NLP-задач — классификация, классификация элементов последовательности, seq2seq, — по сути, у нас остается только одна: seq2seq. С приходом больших языковых моделей все задачи NLP сводятся теперь к форме генерации, при должном качестве этой самой генерации.

          Seq2seq — самая «человеческая» форма решения задач: человек использует тот же формат,  отвечая на сообщения в чате, общаясь устно, сортируя имейлы в почте.  

          • Лично нам в SberDevices не терпелось поскорее применить такой формат к различным задачам — поэтому мы открываем доступ к самой большой русскоязычной нейросети ruGPT-3 XL с 1,3 млрд параметров. 

          Инженерный запал вылился в кропотливую работу по распараллеливанию обучения, очистке данных и тестированию. Но зато… теперь в open-source модель ruGPT-3 XL с 1,3 млрд параметров!



          А также ее публичное API:


          Читать дальше →
        • Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

            Process Mining – это мост между Data Mining и Process Management. Это подход к извлечению, анализу и оптимизации процессов на основе данных из журналов событий (event logs), доступных в информационных системах. Мы разработали и открыли библиотеку, позволяющую быстро и достаточно просто обрабатывать данные информационных систем производства, чтобы находить узкие места и точки неэффективности.

            Первой научной теорией, целью которой был анализ и оптимизация рабочих процессов, является «Научное управление». На рубеже XIX – XX веков усилиями американского исследователя Фредерика Тейлора и его единомышленников была создана теория классического менеджмента. Она основывается на положении, что существует «наилучший способ» выполнения каждой конкретной работы, и проблема низкой производительности может быть решена путем использования метода, названного «научным хронометрированием». Суть метода заключается в разделении работы на последовательность элементарных операций, которые хронометрируются и фиксируются при участии рабочих. В итоге это позволяет получить точную информацию о необходимых затратах времени на выполнение той или иной работы.

            image

            Таким образом, более 120 лет назад таким простым шагом был дан старт научному подходу к исследованию процессов. С развитием общества и технологий эволюционируют и совершенствуются подходы к анализу и оптимизации процессов: происходит переход к «Массовому производству», в основе которого лежит специализация с возможностями оптимизации сборки, компьютеризации и анализа статистки.

            Современный Process Mining — это эволюция этого подхода с учётом больших данных.
            Читать дальше →
            • +10
            • 4,6k
            • 2
          • Agile в Сбере: как понять, что происходит?

              image

              В декабре 2020 мы провели Sbergile Talks (да, давно это было), нашу первую онлайн-конференцию про Agile в Сбере. Три потока, 31 доклад, спикеры из крупнейших отечественных и иностранных компаний, которые так или иначе связаны с Agile. Нас слушало порядка 10 тысяч человек. Я хочу пробежаться по основным моментам и рассказать, что же там было.

              Давно не секрет, что Сбер провёл одно из самых масштабных Agile-преобразований в мире. Об этом неоднократно рассказывали топ-менеджеры в различных СМИ. Итак, что важного в Сбере произошло за эти четыре года? Мы радикально ускорились. А скорость — это один из ключевых факторов развития для Сбера. И он жизненно необходим технологическим компаниям для успешного достижения поставленных целей. Особенно таким крупным компаниям, как наша. И да, Agile действительно ускоряет разработку продукта и даёт возможность компании быть в целом гибче. Поэтому многие так или иначе пытаются внедрить похожие практики у себя, но не у всех получается успешно. Мы и другие игроки рынка каждый год открыто рассказываем о возможных ошибках, накопленном опыте и практических примерах изменений.

              Так почему же Agile так интересен российскому рынку?
              Читать дальше →
            • Обучение робототехнике: что сейчас важно и почему это вошло в программу «Школы 21»

                image

                Теперь мы знаем, что роботы не будут тупыми и похожими на людей. Сначала они будут похожими на автомобили (потому что беспилотный транспорт уже сейчас есть — например Waymo от Google), потом на квадрокоптеры, а потом на забавно прыгающих собак. Сбер тоже в этом всём участвует, например, частично наши робокомбайны, возможно, вам знакомы по блогу Cognitive Pilot. Наш внутренний департамент SberDigitalAuto стал компанией SberAutoTech, которая в том числе будет заниматься беспилотными технологиями. Нам уже нужны кадры, а через пять лет будет острый дефицит специалистов. И поэтому мы занялись программами обучения робототехнике уже сейчас.

                В «Школе 21» появились новые образовательные треки: программирование роботов (ROS), IoT и Электроника и, как следствие, — была организована лаборатория робототехники, в которой участники смогут применять знания на практике.

                Но сегодня я хотел рассказать не о том, как и чему мы учим, а на что будет похож мир робототехники, к которому мы готовимся через несколько лет. Внутри — примеры того, что разрабатывается по всему миру уже сейчас и похоже на предсерийные образцы.
                Читать дальше →
              • Да, мы поменяли UX банкоматов Сбера (новые устройства и новые интерфейсы)

                  image

                  Банкомат имеет ту форму, которую задаёт производитель. То есть обычно он похож на большой металлический шкаф, потому что так удобнее компоновать блоки. Когда вы не меняетесь из года в год, рано или поздно должен возникнуть вопрос — а почему так исторически сложилось? У нас он возник, и наконец-то дошли руки переделать и сами банкоматы, и интерфейсы, и вообще многое.

                  И я очень рада показать вам, что именно у нас получилось на первом пока шаге.

                  Общепринятая практика в банкинге — замена на новое железо при сохранении корпуса банкомата. Мы в этой итерации сделали новые устройства, но ещё не начали ставить их везде.

                  Самое важное:

                  • Поменяли дизайн корпуса, чтобы он стал легче и удобнее и примерно соответствовал привычным паттернам взаимодействия с тачскринами типа смартфонов.
                  • Изменили UI: дизайн стал чище, потому что убрали много шума из интерфейсов. Снизилась когнитивная нагрузка. Сделали меньше шагов везде, где это было возможно.
                  • Добавили больше нового железа, включая биометрические камеры, микрофоны и так далее.
                  • Сделали устройства более функциональными и кастомизируемыми, например, теперь через банкомат можно заказать такси. Можно сравнить это с поддержкой приложений некоего внутреннего маркетплейса.
                  • Банкоматы контекстно-зависимые, например, на вокзалах они смогут печатать билеты.

                  Одно из первых важных изменений было в том, что мы учли, что у земных пользователей есть руки и они имеют определённую длину. Исторически сложилось, что банкоматы прошлых поколений делали так, что UX рассматривался в последнюю очередь. Благодаря техническому прогрессу мы уже не ограничены так сильно компоновкой блоков и смогли многое поменять.
                  Читать дальше →
                • Навыки для виртуальных ассистентов на веб-технологиях

                  • Tutorial

                  Недавно Cбер запустил Салют — семейство виртуальных ассистентов, которые работают на разных платформах. Мы в SberDevices, кроме самого ассистента, занимаемся разработкой инструментов, которые позволяют любому разработчику удобно создавать навыки, которые называются смартапы. Кроме общеизвестных диалоговых сценариев в формате чата — ChatApp, можно создавать смартапы в формате веб-приложения на любых известных веб-технологиях — Canvas App. О том, как создать простейший смартап такого типа на JS, и пойдет сегодня речь.

                  Погнали под кат!
                  • +12
                  • 3,4k
                  • 2
                • Модель для распознавания степени поражения лёгких на КТ: мы резко увеличили точность сортировки больных

                    image
                    Срез КТ с зонами «матового стекла»

                    Пациентам с подтверждённым COVID-19 делают компьютерную томографию лёгких. Если повезёт — один раз, если нет — несколько. В первый раз нужно оценить уровень поражения в процентах. В зависимости от квартиля степени поражения определяется дальнейшая схема лечения, и они разительно отличаются. В апреле 2020 мы узнали, что есть две сложности:

                    • КТ — трёхмерное изображение, каждый слой такого изображения называется срезом. При 300–800 срезах лёгких на КТ врачи тратят от 1 до 15 минут на поиск характерных зон, чтобы определить степень поражения. Одна минута — это «на глаз», 30 минут — это среднее при ручном выделении и подсчёте зон повреждённой ткани. В сложных случаях результат может обрабатываться до часа.
                    • Точность диагностики уровня поражения коронавирусом экспертами «на глаз» высока на границах 0–30 % и 70–100 %. В диапазоне 30–70 погрешность очень высока, и мы обратили внимание, что кто-то из рентгенологов, как правило, системно завышает процент поражения на глаз, а кто-то занижает.

                    Задача сводится к определению повреждённой ткани лёгких и подсчёту доли их объёма к общему лёгких.

                    В конце апреля в кооперации с клиниками мы подготовили датасет обезличенных исследований пациентов с подтверждённым ПЦР-анализом COVID-19, отдали комиссии из десяти отличных экспертов-рентгенологов и разметили выборку для обучения с учителем.
                    Читать дальше →
                  • Как из четырёх минут речи мы воссоздали голос молодого Леонида Куравлёва

                      Всем привет! Меня зовут Олег Петров, я руковожу группой R&D в Центре речевых технологий. Мы давно работаем не только над распознаванием речи, но и умеем синтезировать голоса. Самый простой пример, для чего это нужно бизнесу: чтобы для каждого нового сценария, которому обучают голосовых роботов, не нужно было организовывать новую запись с человеком, который его когда-то озвучил. Ещё мы развиваем продукты на основе голосовой и лицевой биометрии и аналитики по голосовым данным. В общем, работаем над серьёзными и сложными задачами для разного бизнеса.



                      Но недавно к нам пришли коллеги из Сбера с предложением поучаствовать в развлекательной истории — «озвучить» героя Леонида Куравлёва в новом ролике. Для него лицо Куравлева было воссоздано по кадрам из фильма «Иван Васильевич меняет профессию» и наложено на лицо другого актера с помощью технологии Deepfake. Чтобы мы смогли не только увидеть, но и услышать в 2020 году Жоржа Милославского, мы решили помочь коллегам. Ведь с годами голос у всех нас меняется и даже если бы Леонид Вячеславович озвучил героя, эффект был бы не тот.

                      Под катом я расскажу, почему эта, уже во многом привычная задача голосового синтеза, оказалась чуть сложнее, чем мы ожидали, и поясню, почему такие голоса не смогут обмануть качественные системы биометрической авторизации.
                      Читать дальше →
                    • NFC на банкомате: небольшой ликбез

                        image

                        Люди всё ещё продолжают вставлять карту в банкоматах, несмотря на то, что бесконтактное обслуживание имеет преимущества перед привычным всем способом. Постараюсь кратко рассказать историю вопроса.

                        В 2017 году мы начали внедрять NFC на банкоматах. Тогда у нас был большой парк банкоматов, на которых нельзя было прикладывать карту. Было принято решение о поддержке единства пользовательских привычек, и мы начали оснащать наш парк банкоматов NFC-модулями. То есть не устанавливать новые банкоматы и постепенно замещать ими старые по мере амортизации, а взяли почти все имеющиеся модели и добавили на них NFC.

                        С первых дней стало понятно, что пользовательские привычки ломаются долго и нас ещё много лет будет ждать постепенное отвыкание от желания вставлять карту.
                        Читать дальше →
                      • Тестируем ruGPT-3 на новых задачах

                        • Tutorial

                        Рекомендательные системы с нуля, чат-боты и многое другое


                        Погрузившись в пучину текстовых данных, в октябре этого года мы обучили модели ruGPT-3 — модели для русского языка на основе архитектуры от OpenAI. Но на что же способны эти модели? В этой статье мы соберем первые примеры применения модели — и попробуем новые.

                        Мы представляем первые результаты самой большой из обученных моделей — ruGPT-3 Large, разработанной совместно с командами SberDevices, Sber.AI и SberCloud. Изучим границы ее применения вместе с вами.

                        image

                        В этом году на AI Journey мы подготовили соревнование применений ruGPT-3 — в трек можно сдать любое решение с использованием модели, оцениваемое по трем шкалам — инновационность, эмоциональное вовлечение и бизнес-применимость.

                        Спойлер:
                        1 млн рублей за первое место

                        Читать дальше →
                      • Релиз Apache Ignite 2.9.0 — что нового?

                          Apache Ignite – это высокопроизводительная распределенная база данных с открытым исходным кодом, предназначенная для хранения и распределенной обработки больших объемов данных в кластере узлов. Мы в Сбере активно его используем, и у нас есть команда, занимающаяся разработкой этого продукта. 23 октября 2020 года вышла новая версия Apache Ignite 2.9.0. Как менеджер данного релиза от лица всей команды разработчиков Apache Ignite хочу поделиться информацией об основных нововведениях.

                          • Snapshots (Резервное копирование)
                          • Трэйсинг
                          • Новые возможности тонких клиентов
                          • Режим работы кластера «Только чтение»
                          • Запуск пользовательского кода в «песочнице»
                          • Прозрачное шифрование данных: ротация мастер ключа
                          • Инструменты для прерывания пользовательских задач и запросов
                          • Кэширование на стороне платформы (.NET)
                          • Подключение клиентских узлов к серверным через NAT

                          Читать дальше →
                          • +10
                          • 1,8k
                          • 5
                        • Сбер выложил русскоязычную модель GPT-3 Large с 760 миллионами параметров в открытый доступ

                            Последнее десятилетие в области компьютерных технологий ознаменовалось началом новой «весны искусственного интеллекта». Впрочем, ситуацию в индустрии в наши дни можно, наверное, охарактеризовать уже не как весну, а полноценное «лето ИИ». Судите сами, за последние неполные 10 лет только в области обработки естественного языка (Natural language processing, NLP) произошли уже две настоящие технологические революции. Появившаяся в результате второй из них модель GPT-3 произвела настоящий фурор не только в технологических медиа, но стала знаменитой далеко за пределами научного сообщества. Например, GPT-3 написала для издания «The Guardian» эссе о том, почему ИИ не угрожает людям. GPT-3 сочиняет стихи и прозу, выполняет переводы, ведёт диалоги, даёт ответы на вопросы, хотя никогда специально не училась выполнять эти задачи. До недавних пор все возможности GPT-3 могли по достоинству оценить лишь англоязычные пользователи. Мы в Сбере решили исправить эту досадную оплошность. И сейчас расскажем вам, что из этого получилось.


                            Источник изображения
                            Читать дальше →
                          • Как считать и инвестировать свои деньги



                              Нужно ли покупать автомобиль за 750 тысяч рублей при том, что вы ездите 18 раз в месяц или дешевле пользоваться такси? Если вы работаете на заднем сидении или слушаете музыку — как это меняет оценку? Как правильнее покупать квартиру — в какой момент оптимально заканчивать копить на депозите и делать первый взнос по ипотеке? Или даже тривиальный вопрос: выгоднее положить деньги на депозит под 6% с ежемесячной капитализацией или под 6,2% с ежегодной капитализацией? Большинство людей даже не пытается производить такие подсчёты и даже не хотят собирать детальную информацию о своих деньгах. Вместо подсчётов подключают чувства и эмоции. Либо делают какую-то узкую оценку, например, детально подсчитывают годовую стоимость владения автомобилем, в то время как все эти расходы могут составлять лишь 5% от общих трат (а траты на другие стороны жизни при этом не подсчитывают). Мозг человека подвержен когнитивным искажениям. Например, сложно бросить, несмотря на неокупаемость, дело, в которое вложены масса времени и денег. Люди обычно излишне оптимистичны и недооценивают риски, а также легко внушаемы и могут купить дорогую безделушку или вложиться в финансовую пирамиду.

                              Понятное дело, в случае банка эмоциональная оценка не работает. Поэтому я хочу сначала рассказать о том, как оценивает деньги обычное физлицо (я, в том числе), и как это делает банк. Ниже будет немного финансового ликбеза и много про аналитику данных в Сбербанке для всего банка в целом.

                              Полученные выводы приведены только в качестве примера и не могут расцениваться как рекомендации для частных инвесторов, поскольку не учитывают множества факторов, оставшихся за рамками данной статьи.

                              Например, любое событие типа «черный лебедь» в макроэкономике, в корпоративном управлении любой из компаний и пр., может привести к кардинальным изменениям.
                              Читать дальше →
                            • Как увеличить скорость чтения из HBase до 3 раз и с HDFS до 5 раз

                                Высокая производительность — одно из ключевых требований при работе с большими данными. Мы в управлении загрузки данных в Сбере занимаемся прокачкой практически всех транзакций в наше Облако Данных на базе Hadoop и поэтому имеем дело с действительно большими потоками информации. Естественно, что мы все время ищем способы повысить производительность, и теперь хотим рассказать, как удалось пропатчить RegionServer HBase и HDFS-клиент, благодаря чему удалось значительно увеличить скорость операции чтения.

                                Читать дальше →
                                • +13
                                • 2,3k
                                • 7
                              • 10 приёмов работы с Oracle

                                  В Сбере есть несколько практик Oracle, которые могут оказаться вам полезны. Думаю, часть вам знакома, но мы используем для загрузки не только ETL-средства, но и хранимые процедуры Oracle. На Oracle PL/SQL реализованы наиболее сложные алгоритмы загрузки данных в хранилища, где требуется «прочувствовать каждый байт».

                                  • Автоматическое журналирование компиляций
                                  • Как быть, если хочется сделать вьюшку с параметрами
                                  • Использование динамической статистики в запросах
                                  • Как сохранить план запроса при вставке данных через database link
                                  • Запуск процедур в параллельных сессиях
                                  • Протягивание остатков
                                  • Объединение нескольких историй в одну
                                  • Нормалайзер
                                  • Визуализация в формате SVG
                                  • Приложение поиска по метаданным Oracle
                                  Читать дальше →
                                • Бесшовные A/B-обновления в Android: как они устроены

                                    image

                                    Всем привет. В SberDevices наша команда занимается разработкой различных железок и прошивок для них на базе AOSP.

                                    Начиная с Android 8 (у некоторых вендоров с 7.1) в системе появился новый механизм накатки OTA-обновлений, т. н. Seamless A/B OTA Updates — бесшовные обновления. В этом посте я опишу общие принципы его работы, рассмотрю механизм с точки зрения разработчика, а также проведу сравнение со старым (будем его называть recovery-based) подходом применения обновлений. Всё нижесказанное будет справедливо только для чистого AOSP, т. к. конкретная реализация зависит от вендора.
                                    Читать дальше →
                                    • +28
                                    • 4,8k
                                    • 1
                                  • Звук. От механических колебаний до ALSA SoC Layer



                                      Мы в SberDevices делаем устройства, на которых можно послушать музыку, посмотреть кино и ещё много всего. Как вы понимаете, без звука это всё не представляет интереса. Давайте посмотрим, что происходит со звуком в устройстве, начиная со школьной физики и заканчивая ALSA-подсистемой в Linux.
                                      Читать дальше →
                                      • +22
                                      • 4,2k
                                      • 5

                                    Самое читаемое