Как стать автором
Обновить
364.74
Сбер
Технологии, меняющие мир
Сначала показывать

Владелец кода, отзовись! Как построить и применить систему владения кодом

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров521

Code review решает такие проблемы частично, всегда присутствует человеческий фактор, и раз за разом подобные проблемы проходят через проверки. Но решение есть — это концепция Code Ownership, которую мы применили в нашем проекте.

Читать далее
Всего голосов 5: ↑5 и ↓0+6
Комментарии0

Почему «утекают» данные в больших языковых моделях. Часть 3

Уровень сложностиСложный
Время на прочтение11 мин
Количество просмотров636

Добрый день, уважаемые читатели. Это третья часть статьи, посвящённой «утечке» конфиденциальных данных на примере больших языковых моделей, реализуемой посредством кибератак. В первых двух частях (раз и два) мы рассмотрели возможные причины и последствия таких атак. Также отдельно затронули их виды, детально остановились на механизмах и методах сбора и формирования наборов данных, их структуре и свойствах. 

А здесь мы рассмотрим свойства получаемых графов знаний, а также инструменты для их отображения. Прежде всего, нас интересует получение графа знаний (раз и два) и верная его интерпретация, а также подбор инструмента, который бы объективно отражал граф и мог поддерживать очень быстрое масштабирование, ведь количество данных в модели постоянно растёт, а узлы постоянно мигрируют. Более того, как оказалось, они не статичны и могут быть подвержены слияниям, распадам и перетеканию в смежные области. 

Читать далее
Всего голосов 6: ↑5 и ↓1+6
Комментарии0

Знакомьтесь, элемент будущего: для чего открыли зелёный водород

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров1.1K

От изменения климата до постоянно растущего потребления можно выстроить длинную цепочку событий. Среди её звеньев окажутся разные по смыслу факторы. Например, «хороший» технический прогресс и «плохое» сжигание ископаемых ресурсов. Оба приводят к тяжёлым для планеты последствиям с наводнениями, засухами, таянием полярных льдов и, как следствие, к сокращению биоразнообразия. 

Для того чтобы избежать экологической катастрофы у человечества есть всего два пути: резко урезать возможности потребителей, что вряд ли понравится большинству, или перейти на чистую энергетику. В этой статье поговорим о том, для чего открыли зелёный водород, и к каким изменениям может привести новая технология. 

Читать далее
Всего голосов 16: ↑8 и ↓8+5
Комментарии12

Различные вычисления, многопоточность, асинхронность и мультипроцессность в Python

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров7.6K

Всем привет! Меня зовут Дмитрий Первушин, я лидер Python-компетенций трайба ИСУ в Сбере. 

Эта статья рассчитана на людей, которые уже знакомы с Python, хотя бы на уровне junior+. Я объясню, какие есть отличия и особенности в многопоточности, асинхронности и мультипроцессорности в Python, где и когда они используются. Как говорится в пословице: «Всё познаётся в сравнении», именно в таком стиле я подготовил примеры. Кроме этого, буду специально делать ошибки и рассматривать неправильные подходы, чтобы можно было сразу разобраться, убедиться и запомнить, почему так делать нельзя и какой другой подход в этом случае нужно использовать.

Читать далее
Всего голосов 21: ↑18 и ↓3+20
Комментарии16

Как компьютер оценивает внешнее состояние POS-терминалов

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.2K

Привет, Хабр. Меня зовут Дмитрий Жариков. Я исследователь данных в команде эквайринга Сбера и занимаюсь моделями искусственного интеллекта. Эквайринг — это подразделение банка, которое занимается различными способами безналичной оплаты. Кроме того, в группу компаний «Сбер» входит компания федерального значения «Сберсервис», которая занимается настройкой офисного оборудования, в том числе устанавливает и обслуживает POS-терминалы. Я расскажу вам про один из наших проектов — определение состояния POS-терминалов по фотографиям. 

Читать далее
Всего голосов 18: ↑18 и ↓0+25
Комментарии4

Настройся на RAGAS и настрой RAGAS под себя

Уровень сложностиСложный
Время на прочтение12 мин
Количество просмотров1.5K

Не секрет, что RAG (Retrieval-Augmented Generation) сейчас является распространённой техникой использования Больших Языковых Моделей (LLM) в вопросно-ответных системах. Ну а где есть ML-модели, там есть и оценка качества. О том, как оценивать RAG-модели и автоматизировать этот процесс под свою задачу, вы прочитаете в данной статье.

Читать далее
Всего голосов 6: ↑6 и ↓0+12
Комментарии1

Что вы скрываете, Mr. VMware? Вы прячете у себя Linux, не так ли?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров16K

В мире технологий судебные разбирательства, связанные с нарушением интеллектуальной собственности, встречаются часто. Однако даже когда в таких делах замешаны крупные корпорации, почти монополисты в своих отраслях, интерес к этим процессам со стороны сообщества и рынка остаётся удивительно низким. Такое безразличие можно наблюдать в ситуации с обвинениями в воровстве кода Linux против VMware, гипервизоры которой используются в облаках и серверах почти каждой средней и крупной компании. В этой статье я хочу показать на конкретном примере, скорее всего, и так известную вам истину: на нарушение интеллектуальных прав часто закрывают глаза, пока соблюдается статус-кво. Особенно, если нарушитель — крупная компания.

Читать далее
Всего голосов 23: ↑14 и ↓9+13
Комментарии7

Риски искусственного интеллекта в критической инфраструктуре

Время на прочтение7 мин
Количество просмотров1.3K

В апреле этого года американская исследовательская организация RAND опубликовала довольно любопытный отчёт об исследовании1, посвящённом рискам искусственного интеллекта (ИИ) для критически важной инфраструктуры. Авторы исследования опирались на информацию об «умных городах», и при оценке технологий рассматривали такие атрибуты, как доступность, мониторинг и контроль критической инфраструктуры, а также злоумышленное использование ИИ.

Читать далее
Всего голосов 6: ↑5 и ↓1+8
Комментарии3

GigaConf запечатлённый: чем запомнилась технологическая конференция Сбера

Время на прочтение13 мин
Количество просмотров5.7K

Привет, Хабр! 27 июня в Москве прошла конференция GigaConf 2024, на которой эксперты Сбера и других ведущих компаний рассказали о развитии технологий искусственного интеллекта (AI) — в первую очередь для разработчиков. У Хабра здесь была своя медиастудия, где мы взяли несколько интервью с ключевыми спикерами.

Хабр пригласил меня тоже посетить GigaConf и сделать с конференции полноценный репортаж, поделиться живыми впечатлениями. А в процессе я ещё и пообщался с сотрудниками Сбера и других компаний, чтобы побольше узнать о свежих (и обновлённых) технологиях, которые меня заинтересовали. Всеми подробностями и впечатлениями о конференции делюсь под катом.

Читать далее
Всего голосов 9: ↑5 и ↓4+7
Комментарии5

Стартапы наводят порядок: как новые технологии избавляют планету от пластика

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров2.5K

Учёные из Университета Утрехта в Нидерландах пересчитали количество пластика в Мировом океане. Согласно новым данным, общее загрязнение оценивается в 25 млн тонн, из них около 3 млн плавает на поверхности. Более того, исследования показывают, что пластиковый мусор остаётся в природе намного дольше, чем ожидалось. Понятно, что отходы нужно как–то собирать и перерабатывать. В этой статье расскажем об угрозах загрязнения и современных способах очистки планеты от пластикового мусора.

Читать далее
Всего голосов 10: ↑9 и ↓1+13
Комментарии8

А давайте сравнивать облака

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров2.6K

Всем привет. Меня зовут Соловьёв Артём, я несколько лет занимаюсь развитием корпоративного облака, и сегодня хочу поговорить об основных отличиях корпоративных и коммерческих облаков.

Сейчас уже сложно найти людей, связанных с ИТ, которые не слышали об облачных технологиях и таких провайдерах как Amazon Web Services, Microsoft Azure, Google Cloud и т. п. Многие крупные компании строят свои ИТ-системы по облачному принципу. Хочу сосредоточиться на различиях, которые есть между коммерческими и корпоративными облаками, и на том, что стоит учитывать, если вы хотите начать переходить к облачной модели в своей организации. Также мы посмотрим, что происходит в коммерческом облаке, а что — в корпоративном.

Читать далее
Всего голосов 10: ↑5 и ↓5+3
Комментарии0

Как найти и удалить 2 Тб ненужных файлов, которые не видит СУБД? Дорабатываем pg_orphaned

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров4.4K

PostgreSQL, как и все СУБД, основанные на его открытом коде, устроен так, что всю информацию хранит в большом количестве отдельных файлов. И они при разных обстоятельствах могут потеряться. Например, бывает так, что при заполнении таблицы или обработке транзакции происходит сбой. Процесс, породивший файл, прерывается, не удалив результаты своей работы. СУБД про этот файл ещё ничего не знает, поскольку транзакция, создавшая его, не успела закоммититься. Часть таких файлов удалится при перезапуске СУБД, а часть — нет. Так неиспользуемые файлы копятся и занимают всё больше места. Иногда их объём исчисляется терабайтами.

Меня зовут Роман Дягелев, я инженер в СберТехе, сопровождаю и разрабатываю СУБД Platform V Pangolin. Наш продукт основан на открытых решениях PostgreSQL и включает в себя собственные доработки в области безопасности, отказоустойчивости и удобства эксплуатации. Я расскажу о том, почему нам не хватило готового инструмента PostgreSQL для очистки файлового мусора и как я вместе с коллегами дорабатывал его. Надеюсь, наш опыт станет полезен тем, кто работает с инструментарием PostgreSQL и ищет решения для работы с ненужными файлами.

Читать далее
Всего голосов 13: ↑13 и ↓0+17
Комментарии2

Использование моделей EfficientNet для классификации изображений

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров1.3K

Искусственные нейронные сети (ИНС) — мощный инструмент в области компьютерного зрения, особенно в задачах классификации изображений. Эта область применения была одной из первых, для которой ИНС были разработаны. Например, перцептрон Розенблатта [1], созданный в 1957 году, является одним из самых ранних примеров ИНС, способной классифицировать изображения.

Свёрточные нейронные сети (СНС) [2] стали особенно популярными благодаря их способности эффективно обрабатывать изображения. Они используют механизмы, подобные тем, которые используются человеческим мозгом для обнаружения форм и текстур, что делает их идеальными для задач классификации изображений.

Однако выбор оптимальной архитектуры СНС может быть сложной задачей. Необходимо найти баланс между высокой точностью классификации и эффективным использованием ресурсов. Это включает в себя настройку глубины сети, размера фильтров и других параметров. В 2019 году команда исследователей из Google AI представила решение этой проблемы. Они разработали серию архитектур моделей под названием EfficientNet [3]. Эти модели отличаются высокой степенью эффективности и легко настраиваются. Они позволяют классифицировать изображения с высокой точностью, при этом потребляя минимальное количество ресурсов. EfficientNet стало значительным шагом вперед в развитии ИНС для классификации изображений и продолжает быть актуальным до сих пор.

Читать далее
Всего голосов 7: ↑7 и ↓0+10
Комментарии1

Алгоритмы, вдохновлённые природой. Часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров4.3K

Первая часть

В мире современных технологий учёные всё чаще обращаются к природе за вдохновением для создания новых алгоритмов. Одним из таких примеров является бактериальный алгоритм поиска (Bacterial Foraging Algorithm, BFA), который моделирует процесс поиска пищи бактериями. С момента своего появления в 2002 году BFA привлекает внимание благодаря своей эффективности в решении сложных задач оптимизации. Мы рассмотрим, как именно работает этот алгоритм, какие биологические процессы лежат в его основе и как он может быть применён.

Читать далее
Всего голосов 11: ↑10 и ↓1+12
Комментарии8

Путь от создания базовой системы мониторинга к системе автоматизации и принятия решений

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7K

Привет, Хабр! Если вы, работая в ИТ, занимаетесь сопровождением и администрированием автоматизированных систем и предоставляете сервис внутреннему или внешнему клиенту, то у вас или уже есть система мониторинга, либо вы задумывались о её создании. И поэтому сейчас вы здесь!

Меня зовут Павел Степуро, я исполнительный директор ДИТа «Занять и Сберегать» в Сбере. В этой статье я расскажу о подходах и лучших практиках построения систем мониторинга автоматизированных систем в ИТ-компаниях.

Читать далее
Всего голосов 12: ↑10 и ↓2+11
Комментарии2

Синдром спасателя: как перестать брать на себя слишком много?

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.2K

Синдром спасателя — это когда человек всегда старается помогать другим, даже если это вредит ему самому. Такие люди часто ставят чужие интересы выше своих собственных, что может обернуться проблемами в жизни.

Бывало ли у вас такое, что на работе завал, куча дел, но к вам подходит коллега и просит помочь разобраться с багом или другой рабочей задачей, и несмотря на свою загрузку, вы бросаете свои дела и спешите на помощь? В результате ваши собственные проекты начинают отставать по срокам, а качество выполненных задач страдает. Коллеги привыкают к тому, что вы всегда выручите, и начинают полагаться на вас слишком часто, даже в тех случаях, когда могли бы решить проблемы самостоятельно. 

На первый взгляд, такое поведение кажется очень заботливым и добрым, но на практике это приводит к выгоранию и снижению производительности. За этим может скрываться страх, что вас не будут ценить или уважать, если вы перестанете помогать всем подряд.

Узнали себя? Поздравляю, у вас синдром спасателя.

Читать далее
Всего голосов 12: ↑10 и ↓2+9
Комментарии7

ИИ в гейминге

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.1K

Компьютерные игры давно превратились из несерьёзного развлечения в процветающую индустрию, приносящую миллионные доходы. Этот сектор также способствует развитию технологий искусственного интеллекта и виртуальной реальности. Разработка компьютерных игр объединяет художественные и научные элементы с такими дисциплинами, как психология, антропология, культурология и социология. В результате геймеры с невероятной скоростью оттачивают как социальные, так и технические навыки.

Читать далее
Всего голосов 9: ↑7 и ↓2+6
Комментарии2

Как мы отлавливаем флаки-тесты в СУБД Platform V Pangolin. Показываю бэкенд решения

Время на прочтение5 мин
Количество просмотров2.1K

Красные тесты — это неприятно, но есть кое-что похуже — тесты, которые то красные, то зеленые. С флаки-тестами сталкивается каждый продукт. И чем больше вы тестируете, тем больше мучительных выяснений, какие тесты — флаки, а какие — нет.

Меня зовут Александр Милов, я отвечаю за тестирование в Platform V Pangolin — это основная СУБД в Сбере, специальная сборка PostgreSQL, созданная для хранения и обработки данных в высоконагруженных приложениях.

Мы начали делать Pangolin в 2019 году. Долгое время флаки-тесты анализировались вручную, а информация о них передавалась от тестировщика к тестировщику каждую неделю. По мере роста числа тестов это перестало быть возможным (одно дело — отслеживать так 5–10 тестов, другое — 30–50). Сейчас мы запускаем 5000 тестов, и в таких масштабах за всеми флаки не уследишь без автоматизации.

Поэтому полгода назад мы сделали свой велосипед флаки-анализатор. Я покажу основные его детали под капотом. Надеюсь, это будет полезно командам тестирования, которые раздумывают о похожем инструменте. Прошу под кат.

Читать далее
Всего голосов 18: ↑17 и ↓1+25
Комментарии0

Почему «утекают» данные в больших языковых моделях. Часть 2

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров1.5K

Добрый день, уважаемые читатели Хабра. Продолжаем разбираться в теме «утечки» конфиденциальных данных на примере больших языковых моделей и совершаемых для этого атак. В первой статье мы затронули такие механизмы атаки как Special Characters Attack (SCA), Leakage of Test Data in Training Data (LTDAT), Leakage in Prompt Atack (PLeak). Они несут угрозу для генеративных моделей. И мы показали, как можно маскировать данные для минимизации ущерба. 

В этот раз мы затронем такую обширную проблему, как «отравление» обучающих данных (Data Poisoning) и возможность реализации «утечек». Уже известны многочисленные статьи, в которых разбирают атаки, когда входными данными являются изображения. Базовое объяснение существующим подходам даётся здесь и здесь, и говорится что они, как правило, служат бэкдорами и предназначены для повышения привилегий в системе. 

Читать далее
Всего голосов 11: ↑11 и ↓0+13
Комментарии1

GigaConf: всё про искусственный интеллект

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2K

На днях прошла наша конференция GigaConf, посвящённая ИИ в бизнесе. Мы подготовили сборник ознакомительных выступлений с трека открытия.

Читать далее
Всего голосов 14: ↑14 и ↓0+17
Комментарии0
1
23 ...

Информация

Сайт
www.sber.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия