All streams
Search
Write a publication
Pull to refresh
38
111.7
SberTeam @Sber

Пользователь

Send message

Будущее DevOps-инженера

Level of difficultyEasy
Reading time7 min
Views16K

В последние годы произошло много разных событий, и мы, как большая организация, прочувствовали всё на себе. Пришлось очень быстро решать всевозможные проблемы. Хочу поделиться нашим опытом и сделанными выводами, которые кому-то покажутся спорными, кому-то — неуместными, а кому-то — очень важными. 

Читать далее

Удивительная история развития сортировки в JDK

Level of difficultyMedium
Reading time11 min
Views7.6K

Как вы считаете, если выполнить java.util.Arrays.sort(), то какая сортировка будет вызвана? Quicksort? Timsort? И та, и другая, потому что для объектов вызывается Timsort, а для примитивов (чисел int, long, float и так далее) — Dual-Pivot Quicksort. В JDK 6 для объектов использовался стандартный Merge sort, а для чисел классическая реализация Quicksort с одним опорным элементом, предложенная Джоном Бентли и Дугласом МакИлрой. В JDK 7 оба алгоритма поменялись: теперь объекты сортируются с помощью Timsort, автор Тим Петерс, а для простых типов данных используется Dual-Pivot Quicksort, предложенный мною вместе с Джоном Бентли и Джошем Блоком в 2009 году. Эта сортировка используется более 15 лет не только в JDK, но и в Android (хотя и немного устаревшая версия).

А зачем нам вообще второй алгоритм сортировки, если есть Timsort? Почему не использовать один и для объектов, и для примитивов? Сегодня я, как автор, расскажу историю Dual-Pivot Quicksort: как он начинался, как развивался и как продолжает развиваться сейчас.

Читать далее

Обучение с учителем и без — в чём разница?

Level of difficultyEasy
Reading time7 min
Views8.3K

Обучение с учителем и без являются двумя основными подходами к построению моделей машинного обучения (МО). В них заложен существенно разный подход к обучению, а также разные сценарии использования. В этой статье объясняются эти оба метода и различия между ними.

Читать далее

Топ 10 ИИ-фреймворков, или Сказ о том, как AMD проиграла рынок NVIDIA

Level of difficultyEasy
Reading time8 min
Views5.4K

В индустрии машинного обучения происходит небывалый беспрецедентный бум, и главный двигатель этого праздника технологий, генерирующего сверхприбыли для больших компаний, — графические процессоры (GPU). В битве за долю рынка ИИ-ускорителей можно выделить двух титанов индустрии GPU — NVIDIA и AMD. Несмотря на то, что во всех остальных сферах, кроме ИИ, AMD периодически подаёт надежду на превосходство над NVIDIA, во всём, что касается машинного обучения, NVIDIA обладает почти что абсолютной властью над рынком. Эта компания, благодаря своей дальновидной стратегии, сумела не только завоевать доверие разработчиков, но и фактически создать экосистему, ставшую стандартом де-факто в области глубокого обучения. AMD же, несмотря на свой богатый опыт в производстве высокопроизводительных процессоров, оказалась на периферии этого стремительно растущего рынка. 

Читать далее

Непрерывность бизнеса и аварийное восстановление: в чём разница

Level of difficultyEasy
Reading time8 min
Views3.2K

В этой статье мы разберёмся, в чём разница между непрерывностью бизнеса и аварийным восстановлением (восстановлением после сбоя) — двумя обязательными стратегиями для любой компании, желающей избежать длительного простоя. Как объединение обеих практик повышает устойчивость к потенциально опасным для бизнеса угрозам?

Читать далее

Не найдётся ли у вас оперативной памяти, мистер Нейман?

Level of difficultyEasy
Reading time4 min
Views4.2K

Все мы знаем что такое оперативная память, а также что её всегда недостаточно. Не согласится разве что компания Apple, считающая, что 8 гигабайтов хватит всем. Но когда и как возникла оперативная память? Как устроена она на уровне полупроводников и логических вентилей? Как раньше обходились без неё, и возможно ли отказаться от неё снова? Попробуем разобраться в этом, пройдясь по хронологии развития технологии и заодно порассуждаем о том, что нас ожидает в будущем.

Читать далее

RTO и RPO: что это и в чём отличия

Level of difficultyEasy
Reading time6 min
Views17K

Целевая точка восстановления (RPO) и целевое время восстановления (RTO) дают организациям возможность определять допустимые потери данных и диапазон времени простоя систем. Эти метрики являются основными при разработке планов по хранению данных, резервному копированию и аварийному восстановлению, обеспечению эксплуатационной устойчивости, а также непрерывности бизнеса.

Читать далее

ИИ в CRM: как меняется клиентский опыт

Level of difficultyEasy
Reading time8 min
Views2.2K

Системы управления взаимоотношениями с клиентами (CRM) преобразились благодаря возможностям искусственного интеллекта, предоставив компаниям более разумный способ управления клиентским опытом. Сегодня значение ИИ в процессах продаж невозможно переоценить. Мы рассмотрели, как можно использовать машинное обучение в CRM-системах и как на их основе организация может создать рабочие процессы, соответствующие целям и ожиданиям в области управления взаимоотношениями с клиентами.

Читать далее

Как мы перенесли архив данных из Teradata в GreenPlum с помощью Hadoop и PXF

Level of difficultyMedium
Reading time8 min
Views2.3K

Привет, Хабр! Мы продолжаем серию статей о проведённой миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущей статье мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL-скриптов из диалекта Teradata в диалект GreenPlum с помощью реализованного сервиса миграции кода. В этой статье мы расскажем вам о полученном нами опыте и результатах переноса архива данных объёмом более 400 Тб из Teradata в GreenPlum, а также о трудностях и решениях, связанных с этим процессом.

Читать далее

Правда ли, что Dubbo — это как gRPC, но из Китая?

Level of difficultyEasy
Reading time8 min
Views3.7K

Всем привет! На связи Максим Чудновский и Александр Козлов, мы занимаемся развитием интеграционной платформы Synapse. Это сloud-native децентрализованная платформа для интеграции и оркестрации микросервисов, которая разрабатывается в СберТехе.

Сегодня есть множество протоколов, обеспечивающих эффективную коммуникацию между различными компонентами приложений и систем. Два ярких представителя таких технологий — Dubbo и gRPC, которые, по мнению некоторых экспертов, имеют поразительное сходство. Но действительно ли они так уж похожи?

Мы подготовили два материала на тему интеграционных фреймворков. В этой статье познакомим вас с Dubbo, вспомним про базовое устройство Service Mesh и покажем, как мы на Java обычно решаем вопросы интеграции в наших системах. Во второй статье соберём демоприложение на базе фреймворка Dubbo.

Читать далее

Почему «утекают» данные в больших языковых моделях. Часть 3

Level of difficultyHard
Reading time11 min
Views1.5K

Добрый день, уважаемые читатели. Это третья часть статьи, посвящённой «утечке» конфиденциальных данных на примере больших языковых моделей, реализуемой посредством кибератак. В первых двух частях (раз и два) мы рассмотрели возможные причины и последствия таких атак. Также отдельно затронули их виды, детально остановились на механизмах и методах сбора и формирования наборов данных, их структуре и свойствах. 

А здесь мы рассмотрим свойства получаемых графов знаний, а также инструменты для их отображения. Прежде всего, нас интересует получение графа знаний (раз и два) и верная его интерпретация, а также подбор инструмента, который бы объективно отражал граф и мог поддерживать очень быстрое масштабирование, ведь количество данных в модели постоянно растёт, а узлы постоянно мигрируют. Более того, как оказалось, они не статичны и могут быть подвержены слияниям, распадам и перетеканию в смежные области. 

Читать далее

Как компьютер оценивает внешнее состояние POS-терминалов

Level of difficultyEasy
Reading time7 min
Views4.2K

Привет, Хабр. Меня зовут Дмитрий Жариков. Я исследователь данных в команде эквайринга Сбера и занимаюсь моделями искусственного интеллекта. Эквайринг — это подразделение банка, которое занимается различными способами безналичной оплаты. Кроме того, в группу компаний «Сбер» входит компания федерального значения «Сберсервис», которая занимается настройкой офисного оборудования, в том числе устанавливает и обслуживает POS-терминалы. Я расскажу вам про один из наших проектов — определение состояния POS-терминалов по фотографиям. 

Читать далее

Что вы скрываете, Mr. VMware? Вы прячете у себя Linux, не так ли?

Level of difficultyEasy
Reading time5 min
Views16K

В мире технологий судебные разбирательства, связанные с нарушением интеллектуальной собственности, встречаются часто. Однако даже когда в таких делах замешаны крупные корпорации, почти монополисты в своих отраслях, интерес к этим процессам со стороны сообщества и рынка остаётся удивительно низким. Такое безразличие можно наблюдать в ситуации с обвинениями в воровстве кода Linux против VMware, гипервизоры которой используются в облаках и серверах почти каждой средней и крупной компании. В этой статье я хочу показать на конкретном примере, скорее всего, и так известную вам истину: на нарушение интеллектуальных прав часто закрывают глаза, пока соблюдается статус-кво. Особенно, если нарушитель — крупная компания.

Читать далее

Риски искусственного интеллекта в критической инфраструктуре

Reading time7 min
Views1.7K

В апреле этого года американская исследовательская организация RAND опубликовала довольно любопытный отчёт об исследовании1, посвящённом рискам искусственного интеллекта (ИИ) для критически важной инфраструктуры. Авторы исследования опирались на информацию об «умных городах», и при оценке технологий рассматривали такие атрибуты, как доступность, мониторинг и контроль критической инфраструктуры, а также злоумышленное использование ИИ.

Читать далее

А давайте сравнивать облака

Level of difficultyEasy
Reading time13 min
Views3.2K

Всем привет. Меня зовут Соловьёв Артём, я несколько лет занимаюсь развитием корпоративного облака, и сегодня хочу поговорить об основных отличиях корпоративных и коммерческих облаков.

Сейчас уже сложно найти людей, связанных с ИТ, которые не слышали об облачных технологиях и таких провайдерах как Amazon Web Services, Microsoft Azure, Google Cloud и т. п. Многие крупные компании строят свои ИТ-системы по облачному принципу. Хочу сосредоточиться на различиях, которые есть между коммерческими и корпоративными облаками, и на том, что стоит учитывать, если вы хотите начать переходить к облачной модели в своей организации. Также мы посмотрим, что происходит в коммерческом облаке, а что — в корпоративном.

Читать далее

Использование моделей EfficientNet для классификации изображений

Level of difficultyHard
Reading time19 min
Views9.1K

Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенблатта [1], созданный в 1957 году, является одним из самых ранних примеров ИНС, способной классифицировать изображения.

Свёрточные нейронные сети (СНС) [2] стали особенно популярными благодаря их способности эффективно обрабатывать изображения. Они используют механизмы, подобные тем, которые используются человеческим мозгом для обнаружения форм и текстур, что делает их идеальными для задач классификации изображений.

Однако выбор оптимальной архитектуры СНС может быть сложной задачей. Необходимо найти баланс между высокой точностью классификации и эффективным использованием ресурсов. Это включает в себя настройку глубины сети, размера фильтров и других параметров. В 2019 году команда исследователей из Google AI представила решение этой проблемы. Они разработали серию архитектур моделей под названием EfficientNet [3]. Эти модели отличаются высокой степенью эффективности и легко настраиваются. Они позволяют классифицировать изображения с высокой точностью, при этом потребляя минимальное количество ресурсов. EfficientNet стало значительным шагом вперед в развитии ИНС для классификации изображений и продолжает быть актуальным до сих пор.

Читать далее

Почему «утекают» данные в больших языковых моделях. Часть 2

Level of difficultyHard
Reading time5 min
Views1.9K

Добрый день, уважаемые читатели Хабра. Продолжаем разбираться в теме «утечки» конфиденциальных данных на примере больших языковых моделей и совершаемых для этого атак. В первой статье мы затронули такие механизмы атаки как Special Characters Attack (SCA), Leakage of Test Data in Training Data (LTDAT), Leakage in Prompt Atack (PLeak). Они несут угрозу для генеративных моделей. И мы показали, как можно маскировать данные для минимизации ущерба. 

В этот раз мы затронем такую обширную проблему, как «отравление» обучающих данных (Data Poisoning) и возможность реализации «утечек». Уже известны многочисленные статьи, в которых разбирают атаки, когда входными данными являются изображения. Базовое объяснение существующим подходам даётся здесь и здесь, и говорится что они, как правило, служат бэкдорами и предназначены для повышения привилегий в системе. 

Читать далее

GigaConf: всё про искусственный интеллект

Level of difficultyEasy
Reading time14 min
Views2.3K

На днях прошла наша конференция GigaConf, посвящённая ИИ в бизнесе. Мы подготовили сборник ознакомительных выступлений с трека открытия.

Читать далее

Переезд на Spring Boot 3.0 c версии 2.0: какие сложности могут возникнуть

Level of difficultyMedium
Reading time6 min
Views12K

Привет, Хабр! Я Артем Киреев, ИТ‑инженер в СберТехе. Мы с командой занимаемся развитием продукта из состава Platform V Synapse — децентрализованной платформы для задач интеграции. Мы стремимся поддерживать актуальность стека, на котором разрабатываем наши продукты, и регулярно отслеживаем все изменения. Обратившись к таблице поддерживаемых версий на официальном сайте Spring, мы обнаружили, что версии Spring Boot ниже 3.0 больше не поддерживаются. Поэтому мы решили, что нужно перевести проект на последнюю из существующих версий. На момент написания статьи это Spring Boot 3.2.

В ходе миграции я столкнулся с рядом проблем, решение которых не всегда было очевидным. Цель этой статьи — помочь читателям быстрее и проще решить ошибки, с которыми столкнулся я сам.

Читать далее

Тренируем клиентских менеджеров с помощью ИИ

Level of difficultyEasy
Reading time6 min
Views1.2K

Изображение сгенерировано Kandinsky по запросу: «Нейросеть гигачат учит клиентского менеджера сбербанка общаться по телефону. Зеленые цвета»

Развитие LLM вызывает все больше споров о том, увидим ли мы AGI в ближайшем будущем. Но пока одни рассуждают, мы применяем технологии. Мы в Сбере разработали тренажёр для клиентских менеджеров на основе GigaChat. Принцип его работы прост: когда менеджер общается с клиентом, разговор записывается и расшифровывается. Затем наш GigaChat анализирует этот диалог и предоставляет конкретные рекомендации для улучшения качества обслуживания.

Читать далее

Information

Rating
61-st
Works in
Registered
Activity