Pull to refresh
26
174.5
SberTeam @Sber

Пользователь

Send message

Causal Inference: прозрение и практика. Лекция 2. Рандомизированные контролируемые испытания

Level of difficultyHard
Reading time8 min
Views350

Предыдущая лекция.

Рандомизированные контролируемые испытания (РКИ) представляют собой наиболее объективную, прозрачную и эффективную методологию для проведения экспериментов. Они пользуются огромной популярностью и применяются в самых разных сферах, включая науку, медицину, маркетинг и технологии. С их помощью учёные и специалисты могут проверять эффективность новых методов лечения, лекарственных препаратов, продуктов или услуг, сравнивая результаты между двумя или более группами. РКИ встречаются гораздо чаще, чем может показаться на первый взгляд. Это невероятно популярный метод исследования причинно‑следственных связей. Хотя они довольно просты в реализации, их точность значительно превосходит все другие методы аппроксимации ATE.

Читать далее
Total votes 4: ↑4 and ↓0+6
Comments0

Causal Inference: прозрение и практика. Лекция 1. Основные понятия Causal Inference

Level of difficultyHard
Reading time10 min
Views615

В нашем веке центральное место в анализе и использовании данных занимает Data Science. Однако часто данное понятие сводят к одним лишь алгоритмам машинного обучения или даже искусственному интеллекту, преуменьшая другие важные аспекты этой области знаний.

История формирования современной науки о данных началась со сближения двух могущественных инструментов — эконометрики и машинного обучения. В разные времена они казались двумя противоположностями в анализе данных. Машинное обучение было ориентировано на высокую точность прогнозов, порой жертвуя понятностью моделей. Эконометрика же делала акцент на интерпретируемости, понимании причинно‑следственных связей, иногда оставаясь в тени из‑за ограниченности моделей.

Однако со временем стало ясно, что для полного понимания данных необходимо научиться объединять эти два подхода. Здесь на сцену выходит причинно‑следственный вывод (Causal Inference). Эта область Data Science помогает раскрыть причины явлений, объединяя преимущества как машинного обучения, так и эконометрики. Judea Pearl в своей статье 2021 года подчеркивает важность причинно‑следственного вывода как «ключевого элемента для достижения баланса между радикальным эмпиризмом ML и интерпретационным подходом эконометрики».

Таким образом, Causal Inference — это область статистики и научных исследований, направленная на выявление и измерение причинно‑следственных связей между переменными. Она помогает определить, какое воздействие оказывает изменение одной переменной на другую, отличая это воздействие от простых корреляций.

Читать далее
Total votes 9: ↑7 and ↓2+9
Comments2

Оптимизируем системные ресурсы при развёртывании за счёт перехода на динамику

Level of difficultyMedium
Reading time10 min
Views1K

Всем привет! Если в компании растёт количество продуктов, а для их развёртывания используются виртуальные машины, то рано или поздно возникает задача оптимизации ресурсов. Скажем, вы используете для оркестрации Jenkins. Количество агентов на ВМ при этом статично, а количество развёртываний в разное время разное. В этом случае при массовых установках агенты периодически упираются в установленный лимит исполнителей (executor), а в свободные часы ВМ простаивают, занимая ресурсы.

Мы, команда Run4Change в СберТехе, сопровождаем тестовые среды. В наши задачи входит в том числе развёртывание продуктов облачной платформы Platform V на стендах для последующего тестирования. Расскажем, как мы решили проблему использования системных ресурсов и отказались от виртуальных машин в пользу cloud‑native‑решения. Статья может быть полезна тем, кто планирует начать использование динамических агентов Jenkins, и может использоваться как первоначальное руководство.

Читать далее
Total votes 7: ↑7 and ↓0+12
Comments1

Шифруй то, шифруй это, или LLM под замком

Level of difficultyMedium
Reading time8 min
Views3.2K

Здравствуйте, уважаемые читатели Хабра. Чем больше я погружаюсь в LLM, тем больше укрепляюсь во мнении, что сейчас они (LLM) заняли если не самое важное, то уж точно одно из очень значимых мест во всём пантеоне моделей машинного обучения. При этом всё чаще встаёт вопрос шифрования моделей в самом широком смысле. Речь не столько о механизмах, алгоритмах, подходах и методиках шифрования того, что запрашивает пользователь, сколько о работе с данными в целом, в том числе и для обучения моделей. То есть о шифровании как на входе, так и на выходе — данных от пользователя, от модели и обучающих данных.

Мы поговорим о безопасном обращении с коммерческим контентом, шифровании данных, моделях и подходах к безопасному обращению и встраиванию коммерческих данных в модель. Будет интересно ;)

Почему это важно? Сегодня работает четвёртое поколение GPT‑систем, ждём пятое. Есть много аналогов «четвёрки» (Megatron‑LLM, LLaMA, Claude, PaLM, Mistral, BLOOM, Grok, Megatron‑Turing NLG, Chinchilla, OPT, GODEL, Jurrassic-2), которые по ряду параметров намного превосходят GPT-4. Однако для качественной «эволюции» систем необходимо «скармливать» им «правильный» эксплуатационный код, апробированный и полностью покрытый тестами, который создаётся крупными корпорациями, средним и малым бизнесом. Но есть нюанс: такой код просто так никто не отдаст. Более того, он защищён авторскими правами и имеет ряд наложенных юридических условий использования.

Читать далее
Total votes 11: ↑10 and ↓1+14
Comments1

Цифровые двойники: от истока к будущему

Level of difficultyEasy
Reading time9 min
Views2.1K

Не так давно термин «цифровой двойник» был передовой, меняющей парадигму, но лишь концепцией, которая обещала произвести революцию в отраслях, предоставив динамическое цифровое зеркало физических систем. Сегодня эта инновация вышла далеко за рамки своей первоначальной предпосылки. Она созрела и превратилась в тонкую экосистему.

Читать далее
Total votes 11: ↑7 and ↓4+12
Comments28

Демократизация DevOps

Level of difficultyMedium
Reading time7 min
Views5.1K

На нашей недавней конференции GigaConf мы много​​ рефлексировали о том, как будет развиваться направление DevOps. Оно немыслимо без инструментов. Поэтому я расскажу о том, как мы внедряем в Сбере практики GitAIOps, какие совершили ошибки и извлекли уроки, какие сделали выводы по поводу внедрения ИИ. Сегодня на всех углах рассказывают, как ИИ поможет разработчикам, но мало кто говорит о его помощи DevOps-инженерам. Надо это исправить.

Меня зовут Юрий Спорынин, в ИТ я более 20 лет. Начинал с разработки, своими руками создавал процессинговую систему для интернет-эквайринга. В 2016 году я перешёл в Сбер, где мы в 2018 году внедрили платформу в «Сбербанк Онлайн». Сейчас среди моих задач — кластер DevOps-инструментов, о которых мы отчасти сегодня поговорим. 

Читать далее
Total votes 10: ↑8 and ↓2+13
Comments3

Jenkins — от монолита к распределению

Level of difficultyMedium
Reading time8 min
Views5.7K

Привет, я Дмитрий Коляндра, разработчик в подразделении SberWorks, занимающемся автоматизацией и сопровождением инструментов производственного процесса. Эта история о том, что происходит в крупных компаниях, где развёрнуто много десятков экземпляров Jenkins.

Читать далее
Total votes 13: ↑13 and ↓0+21
Comments3

IT с человеческим лицом: портрет типичного программиста-2024

Level of difficultyEasy
Reading time7 min
Views7.4K

Всем привет! Не так давно мы с GitVerse, платформой для работы с исходным кодом от СберТеха, проводили опрос, чтобы выяснить, как сегодня выглядит типичный программист. Не в смысле внешности, а в плане своих личных и профессиональных качеств. Опрос прошли почти 2,5 тысячи человек. Мы очень рады, что наша затея оказалась такой популярной. Теперь настало время поделиться результатами. Кто он такой — Типичный Программист-2024? Заходите под кат, чтобы узнать о нём всё.

Читать далее
Total votes 20: ↑17 and ↓3+21
Comments2

Будущее DevOps-инженера

Level of difficultyEasy
Reading time7 min
Views14K

В последние годы произошло много разных событий, и мы, как большая организация, прочувствовали всё на себе. Пришлось очень быстро решать всевозможные проблемы. Хочу поделиться нашим опытом и сделанными выводами, которые кому-то покажутся спорными, кому-то — неуместными, а кому-то — очень важными. 

Читать далее
Total votes 18: ↑12 and ↓6+15
Comments10

Удивительная история развития сортировки в JDK

Level of difficultyMedium
Reading time11 min
Views5.9K

Как вы считаете, если выполнить java.util.Arrays.sort(), то какая сортировка будет вызвана? Quicksort? Timsort? И та, и другая, потому что для объектов вызывается Timsort, а для примитивов (чисел int, long, float и так далее) — Dual-Pivot Quicksort. В JDK 6 для объектов использовался стандартный Merge sort, а для чисел классическая реализация Quicksort с одним опорным элементом, предложенная Джоном Бентли и Дугласом МакИлрой. В JDK 7 оба алгоритма поменялись: теперь объекты сортируются с помощью Timsort, автор Тим Петерс, а для простых типов данных используется Dual-Pivot Quicksort, предложенный мною вместе с Джоном Бентли и Джошем Блоком в 2009 году. Эта сортировка используется более 15 лет не только в JDK, но и в Android (хотя и немного устаревшая версия).

А зачем нам вообще второй алгоритм сортировки, если есть Timsort? Почему не использовать один и для объектов, и для примитивов? Сегодня я, как автор, расскажу историю Dual-Pivot Quicksort: как он начинался, как развивался и как продолжает развиваться сейчас.

Читать далее
Total votes 27: ↑27 and ↓0+35
Comments14

Обучение с учителем и без — в чём разница?

Level of difficultyEasy
Reading time7 min
Views3.4K

Обучение с учителем и без являются двумя основными подходами к построению моделей машинного обучения (МО). В них заложен существенно разный подход к обучению, а также разные сценарии использования. В этой статье объясняются эти оба метода и различия между ними.

Читать далее
Total votes 13: ↑11 and ↓2+17
Comments2

Топ 10 ИИ-фреймворков, или Сказ о том, как AMD проиграла рынок NVIDIA

Level of difficultyEasy
Reading time8 min
Views3.8K

В индустрии машинного обучения происходит небывалый беспрецедентный бум, и главный двигатель этого праздника технологий, генерирующего сверхприбыли для больших компаний, — графические процессоры (GPU). В битве за долю рынка ИИ-ускорителей можно выделить двух титанов индустрии GPU — NVIDIA и AMD. Несмотря на то, что во всех остальных сферах, кроме ИИ, AMD периодически подаёт надежду на превосходство над NVIDIA, во всём, что касается машинного обучения, NVIDIA обладает почти что абсолютной властью над рынком. Эта компания, благодаря своей дальновидной стратегии, сумела не только завоевать доверие разработчиков, но и фактически создать экосистему, ставшую стандартом де-факто в области глубокого обучения. AMD же, несмотря на свой богатый опыт в производстве высокопроизводительных процессоров, оказалась на периферии этого стремительно растущего рынка. 

Читать далее
Total votes 13: ↑12 and ↓1+21
Comments16

Непрерывность бизнеса и аварийное восстановление: в чём разница

Level of difficultyEasy
Reading time8 min
Views2.2K

В этой статье мы разберёмся, в чём разница между непрерывностью бизнеса и аварийным восстановлением (восстановлением после сбоя) — двумя обязательными стратегиями для любой компании, желающей избежать длительного простоя. Как объединение обеих практик повышает устойчивость к потенциально опасным для бизнеса угрозам?

Читать далее
Total votes 12: ↑11 and ↓1+15
Comments8

Не найдётся ли у вас оперативной памяти, мистер Нейман?

Level of difficultyEasy
Reading time4 min
Views3.8K

Все мы знаем что такое оперативная память, а также что её всегда недостаточно. Не согласится разве что компания Apple, считающая, что 8 гигабайтов хватит всем. Но когда и как возникла оперативная память? Как устроена она на уровне полупроводников и логических вентилей? Как раньше обходились без неё, и возможно ли отказаться от неё снова? Попробуем разобраться в этом, пройдясь по хронологии развития технологии и заодно порассуждаем о том, что нас ожидает в будущем.

Читать далее
Total votes 21: ↑15 and ↓6+18
Comments40

RTO и RPO: что это и в чём отличия

Level of difficultyEasy
Reading time6 min
Views1.9K

Целевая точка восстановления (RPO) и целевое время восстановления (RTO) дают организациям возможность определять допустимые потери данных и диапазон времени простоя систем. Эти метрики являются основными при разработке планов по хранению данных, резервному копированию и аварийному восстановлению, обеспечению эксплуатационной устойчивости, а также непрерывности бизнеса.

Читать далее
Total votes 7: ↑7 and ↓0+15
Comments1

ИИ в CRM: как меняется клиентский опыт

Level of difficultyEasy
Reading time8 min
Views1.3K

Системы управления взаимоотношениями с клиентами (CRM) преобразились благодаря возможностям искусственного интеллекта, предоставив компаниям более разумный способ управления клиентским опытом. Сегодня значение ИИ в процессах продаж невозможно переоценить. Мы рассмотрели, как можно использовать машинное обучение в CRM-системах и как на их основе организация может создать рабочие процессы, соответствующие целям и ожиданиям в области управления взаимоотношениями с клиентами.

Читать далее
Total votes 11: ↑8 and ↓3+13
Comments4

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Level of difficultyMedium
Reading time8 min
Views1.7K

Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.

Читать далее
Total votes 8: ↑8 and ↓0+14
Comments6

Правда ли, что Dubbo — это как gRPC, но из Китая?

Level of difficultyEasy
Reading time8 min
Views3.4K

Всем привет! На связи Максим Чудновский и Александр Козлов, мы занимаемся развитием интеграционной платформы Synapse. Это сloud-native децентрализованная платформа для интеграции и оркестрации микросервисов, которая разрабатывается в СберТехе.

Сегодня есть множество протоколов, обеспечивающих эффективную коммуникацию между различными компонентами приложений и систем. Два ярких представителя таких технологий — Dubbo и gRPC, которые, по мнению некоторых экспертов, имеют поразительное сходство. Но действительно ли они так уж похожи?

Мы подготовили два материала на тему интеграционных фреймворков. В этой статье познакомим вас с Dubbo, вспомним про базовое устройство Service Mesh и покажем, как мы на Java обычно решаем вопросы интеграции в наших системах. Во второй статье соберём демоприложение на базе фреймворка Dubbo.

Читать далее
Total votes 22: ↑20 and ↓2+28
Comments5

Почему «утекают» данные в больших языковых моделях. Часть 3

Level of difficultyHard
Reading time11 min
Views1.3K

Добрый день, уважаемые читатели. Это третья часть статьи, посвящённой «утечке» конфиденциальных данных на примере больших языковых моделей, реализуемой посредством кибератак. В первых двух частях (раз и два) мы рассмотрели возможные причины и последствия таких атак. Также отдельно затронули их виды, детально остановились на механизмах и методах сбора и формирования наборов данных, их структуре и свойствах. 

А здесь мы рассмотрим свойства получаемых графов знаний, а также инструменты для их отображения. Прежде всего, нас интересует получение графа знаний (раз и два) и верная его интерпретация, а также подбор инструмента, который бы объективно отражал граф и мог поддерживать очень быстрое масштабирование, ведь количество данных в модели постоянно растёт, а узлы постоянно мигрируют. Более того, как оказалось, они не статичны и могут быть подвержены слияниям, распадам и перетеканию в смежные области. 

Читать далее
Total votes 15: ↑14 and ↓1+24
Comments0

Как компьютер оценивает внешнее состояние POS-терминалов

Level of difficultyEasy
Reading time7 min
Views3.5K

Привет, Хабр. Меня зовут Дмитрий Жариков. Я исследователь данных в команде эквайринга Сбера и занимаюсь моделями искусственного интеллекта. Эквайринг — это подразделение банка, которое занимается различными способами безналичной оплаты. Кроме того, в группу компаний «Сбер» входит компания федерального значения «Сберсервис», которая занимается настройкой офисного оборудования, в том числе устанавливает и обслуживает POS-терминалы. Я расскажу вам про один из наших проектов — определение состояния POS-терминалов по фотографиям. 

Читать далее
Total votes 26: ↑26 and ↓0+39
Comments4
1
23 ...

Information

Rating
20-th
Works in
Registered
Activity