Как стать автором
Обновить
35
57
SberTeam @Sber

Пользователь

Отправить сообщение

Почему «утекают» данные в больших языковых моделях. Часть 2

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров1.8K

Добрый день, уважаемые читатели Хабра. Продолжаем разбираться в теме «утечки» конфиденциальных данных на примере больших языковых моделей и совершаемых для этого атак. В первой статье мы затронули такие механизмы атаки как Special Characters Attack (SCA), Leakage of Test Data in Training Data (LTDAT), Leakage in Prompt Atack (PLeak). Они несут угрозу для генеративных моделей. И мы показали, как можно маскировать данные для минимизации ущерба. 

В этот раз мы затронем такую обширную проблему, как «отравление» обучающих данных (Data Poisoning) и возможность реализации «утечек». Уже известны многочисленные статьи, в которых разбирают атаки, когда входными данными являются изображения. Базовое объяснение существующим подходам даётся здесь и здесь, и говорится что они, как правило, служат бэкдорами и предназначены для повышения привилегий в системе. 

Читать далее

GigaConf: всё про искусственный интеллект

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров2.2K

На днях прошла наша конференция GigaConf, посвящённая ИИ в бизнесе. Мы подготовили сборник ознакомительных выступлений с трека открытия.

Читать далее

Переезд на Spring Boot 3.0 c версии 2.0: какие сложности могут возникнуть

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров11K

Привет, Хабр! Я Артем Киреев, ИТ‑инженер в СберТехе. Мы с командой занимаемся развитием продукта из состава Platform V Synapse — децентрализованной платформы для задач интеграции. Мы стремимся поддерживать актуальность стека, на котором разрабатываем наши продукты, и регулярно отслеживаем все изменения. Обратившись к таблице поддерживаемых версий на официальном сайте Spring, мы обнаружили, что версии Spring Boot ниже 3.0 больше не поддерживаются. Поэтому мы решили, что нужно перевести проект на последнюю из существующих версий. На момент написания статьи это Spring Boot 3.2.

В ходе миграции я столкнулся с рядом проблем, решение которых не всегда было очевидным. Цель этой статьи — помочь читателям быстрее и проще решить ошибки, с которыми столкнулся я сам.

Читать далее

Тренируем клиентских менеджеров с помощью ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.1K

Изображение сгенерировано Kandinsky по запросу: «Нейросеть гигачат учит клиентского менеджера сбербанка общаться по телефону. Зеленые цвета»

Развитие LLM вызывает все больше споров о том, увидим ли мы AGI в ближайшем будущем. Но пока одни рассуждают, мы применяем технологии. Мы в Сбере разработали тренажёр для клиентских менеджеров на основе GigaChat. Принцип его работы прост: когда менеджер общается с клиентом, разговор записывается и расшифровывается. Затем наш GigaChat анализирует этот диалог и предоставляет конкретные рекомендации для улучшения качества обслуживания.

Читать далее

Почему «утекают» данные в больших языковых моделях. Часть 1

Время на прочтение9 мин
Количество просмотров3.1K

При разработке чат-ботов на основе больших языковых моделей (Large Language Model, LLM) всё чаще становится актуальной проблема «утечки» конфиденциальных данных. Причём она сопряжена со множеством значимых негативных последствий, как для клиентов, так и для бизнеса.

Читать далее

Когда проснулся и узнал, что существуют PWA

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров15K

Всем привет. Меня зовут Антон, я фронтендер в Сбере. Если вы ещё не осваивали технологию PWA, но хотели бы — или вдруг срочно понадобилось, — то я вам помогу и объясню, что это и как начать с ней работать. 

Читать далее

Машинное обучение с Python и TensorFlow на Windows. Быстрый старт

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Словосочетание «машинное обучение» становится всё более значимым с каждым годом и проникает во все возможные сферы жизни, а с появлением в открытом доступе таких нейронных сетей как Chat GPT [1] интерес к машинному обучению стал высок как никогда. Но при этом многих отпугивает сложность создания своих систем на основе машинного обучения, потому что нужно одновременного использовать и настраивать много разных инструментов разработки.

Поэтому я хочу представить вашему вниманию максимально простую инструкцию для быстрого погружения в мир машинного обучения. Инструкция ориентирована в первую очередь на начинающих программистов, мы будем применять Python 3 [2] с библиотекой TensorFlow [3]. Это лучший выбор для начинающих из-за простоты языка и большого сообщества разработчиков, использующих TensorFlow.

Читать далее

Как и зачем активно проверять работоспособность узлов при проксировании запросов с помощью Nginx

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.8K

Привет, Хабр! В этом материале рассмотрим, как мы в SynGX реализовали активную проверку работоспособности узлов в группах балансировки, и как этот опыт может быть полезен при использовании прокси-серверов c аналогичной функциональностью.

Меня зовут Ринат Фатхуллин, я владелец продукта Platform V SynGX. В СберТехе мы с 2017 года развиваем собственную сборку Nginx для внутренних заказчиков, а в 2022 вышли на рынок под брендом Platform V SynGX.

Читать далее

Белый стенд и никакого мерча: почему вместо раздатки для участников CodeFest мы купили компьютеры в Новосибирский лицей

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров905

IT-конференции — один из самых эффективных инструментов для знакомства с комьюнити и поиска новых сотрудников в технологические команды Сбера. В подобных мероприятиях мы участвуем несколько десятков раз в год — и для каждого мероприятия стараемся продумать уникальный тематический стенд, мерч и темы выступлений — чтобы выделиться среди других компаний и удивить тех, кто заглядывает на конференции ежегодно.

Читать далее

Практичные и не очень проекты на базе Raspberry Pi и не только: DIY-проекты весны 2024 года

Время на прочтение4 мин
Количество просмотров24K

«Малинка» — один из наиболее популярных одноплатников, который, собственно, и положил начало экспансии одноплатных ПК на рынок. На основе Raspberry Pi различных версий созданы десятки тысяч проектов, от just for fun до промышленных систем. Под катом расскажем про новые идеи, которые, возможно, кто‑то из читателей Хабра захочет повторить.

Читать далее

Угрозы информационной безопасности производственного конвейера разработки ПО: выбираем меры нейтрализации

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.2K

Привет, Хабр! На связи Сергей Кубан, руководитель направления отдела защиты инфраструктуры производства ПО в СберТехе. Наша команда отвечает за то, чтобы поставляемое клиентам ПО и сервисы соответствовали требованиям кибербезопасности.

В предыдущей статье мы говорили о том, как моделировать угрозы информационной безопасности и как это помогает противодействовать угрозам атак на цепочки поставок ПО. Сегодня расскажу, как выбирать меры, которые помогут эти угрозы нейтрализовать.

Читать далее

GigaCode и все-все-все. Сравниваем различные ИИ-ассистенты между собой

Уровень сложностиСложный
Время на прочтение19 мин
Количество просмотров15K

Привет, Хабр! Мы представляем команду GigaCode. В декабре 2023 года наш продукт стал доступен широкой аудитории. До этого GigaCode использовался только внутри компании, и нас часто спрашивали о том, как GigaCode выглядит на фоне других ИИ-ассистентов, как вы сравниваете себя с остальными? Отвечая на эти вопросы, мы начали с простой задачи, которая оказалась не такой уж и простой и вылилась в увлекательное исследование со всем тем, что мы так любим: множеством измерений, математической статистикой и, конечно же, новыми горизонтами. Интересно? Добро пожаловать под кат.

Читать далее

Как замерять и повышать производительность Java-кода: личный пример с JMH

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров6.7K

Привет, Хабр! Большинство команд разработки так или иначе вовлечены в гонку за производительностью. Если понимать этот показатель как скорость работы системы, то вся деятельность по прокачке производительности — это, по сути, анализ метрик и поиск инструментов, которые эту скорость могут повысить.

Меня зовут Александр Певненко, я работаю в СберТехе, компании, которая разрабатывает ПО. Для большинства наших продуктов производительность — критичный фактор, поэтому анализ метрик и оптимизация кода — важная часть цикла разработки. Хочу поделиться личным опытом и мнением обо всём, что касается оптимизации и повышения скорости работы кода, а также нагрузочного тестирования как части этой работы. Тут представлены моя собственная практика использования набора библиотек JMH для нагрузочного тестирования и замеров производительности Java-кода. Всем, кому интересно, добро пожаловать под кат!

Читать далее

5 библиотек и фреймворков Java, крайне полезных для разработчика

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров13K

Java-библиотеки и фреймворки незаменимы для разработчиков разного уровня. Они предоставляют готовые решения для таких часто встречающихся задач, как работа с коллекциями данных, обработка сетевых запросов, работа с базами данных, с графическим интерфейсом пользователя и многое другое. В сегодняшней подборке расскажем о тех из них, которые могут оказаться весьма полезными для вас. Сама статья рассчитана на разработчиков начинающего уровня. Если вы — профессионал, посоветуйте в комментариях тот инструмент, который используете сами.

Читать далее

Проблема «галлюцинирования» в больших языковых моделях на примере чат-ботов

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.9K

Добрый день, уважаемые читатели Хабр. По роду деятельности, я уже некоторое время занимаюсь вопросами NLP, в частности, генеративными большими языковыми моделями и, реализованными, на них чат-ботами. При этом, очень часто в их разработке возникает ряд проблем, с которыми приходится постоянно бороться. Одна из них — «галлюцинирование» моделей, то есть выдача неточной информации на поступающие запросы от пользователя, и, в целом, некорректное поведение модели при длительном ведении диалогов различной степени направленности, специфики, глубины рассуждений, оценки фактов и правдивости выдаваемых ответов. 

Исходя из этого, я решил систематизировать все имеющиеся по этой теме сведения. Сразу оговорюсь, статья носит обзорный характер и я ставлю своей целью обобщение фактов, причин и признаков такого поведения. Поиск возможных вариантов, методик и подходов для решения данной проблемы будут рассмотрены в следующей статье. Здесь, не будет кода и строгих выкладок, лишь, наблюдения, аналитика, способы оценки, выявленные закономерности и оценка работы в общем. 

В качестве результата исследования, предлагается описание общей ситуации с обнаруженными возможными проявлениями феномена «галлюцинирования». На целостность и завершенность обзора, при описании полученных вариаций и проявлений данного факта, не претендую. Это результаты моего поиска и анализа. Информация собиралась, буквально по крупицам, так как все сведения сильно разрознены, проявления их в «дикой природе» не всегда можно заметить и четко классифицировать, либо они начинают проявляться спустя большое количество тестов, диалогов, рассуждений, запросов, вариантов подачи подсказок и уточнений на поставленные запросы и исходных текстов. Кроме всего прочего, градация распределения этих аномалий по степени отслеживания, так же, сильно разнится. Есть те, которые проявляются весьма быстро, а есть крайне редкие, для которых нужен специфических, очень тонкий подход. Ниже я представлю данный перечень с подробными пояснениями, так что всех прошу под кат. 

Читать далее

Использование маппера UNROM при разработке игр для Dendy на языке Си

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4.8K

Приветствую всех любителей программирования всяческих ретро-железок. Могу предположить, что у большинства из читателей этой статьи была в детстве Dendy (а может и сейчас есть) или другой клон Famicom (клонов NES в СНГ я не встречал). Сегодня предлагаю обсудить особенности разработки игр для приставок Dendy, NES и Famicom с маппером (mapper) UNROM. Те из вас, кто хоть немного углублялся в особенности архитектуры игр для 8-битных приставок, наверняка слышал про мапперы. Это электронная схема, которая находится на плате картриджа и расширяет возможности консоли, подключаясь напрямую к шинам процессора.

Мапперов для Dendy существует сотни, так как очень часто компании, разрабатывающие игры, делали уникальные мапперы под свои нужды. Поэтому сегодня они есть на любой вкус и цвет. Самые простые мапперы позволяют переключать банки памяти (это было обычным делом для всех компьютеров 1980-х), а самые продвинутые (например, MMC5) уже позволяли использовать дополнительные аппаратные прерывания, улучшенный звук, прокрутку по двум осям и т. д.

Читать далее

Энтропия на страже безопасности: эволюция генераторов случайных чисел

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.2K

Случайности не случайны, особенно когда они реализованы исключительно программными методами и подчиняются распознаваемому детерминизму. А тем временем мы нуждаемся в генерации настоящих, случайных чисел — от криптографии с защитой наших банковских данных, до компьютерных игр. 

Может показаться что эта проблема была решена уже давно, но те же процессоры обзавелись модулями энтропии только в 2012-2014 годах. И на этом прогресс не останавливается: всё доступнее становятся квантовые генераторы энтропии, полностью лишённые изъяна детерминизма. Давайте посмотрим, как от ложного рандома мы пришли к недетерминированному.

Читать далее

Обзор архитектуры Compose с использованием паттерна «координатор»

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров8.2K

В этой статье рассмотрим, пример реализации архитектуры UI-слоя на Compose, которая основывается на Uni-directional data flow и state hoisting с использованием паттерна «координатор» для навигации. Вдохновением для меня послужила эта публикация, но я решил подробнее развернуть поднятую в ней тему архитектуры Compose и навигации.

Читать далее

Что делать, чтобы эксплуатация не превратилась в бесконечное тушение пожаров

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.5K

Меня зовут Владимир Медин, я работаю в подразделении SberWorks, которое внедряет практики DevOps и MLOps. Хочу поделиться нашим опытом повышения надёжности enterprise-систем, вводимых в эксплуатацию, особенно впервые. Для кого-то эта статья будет в большей степени спасательным кругом, но с напутствием. Многие подходы к обеспечению надёжности у нас регламентированы, но есть и «неуставные» решения, которые вырабатываются только с опытом. Кому-то могут бы непонятны некоторые тонкости, диктуемые условиями крупной компании, поэтому по мере рассказа буду объяснять, почему это важно. Впрочем, на мой взгляд, эти правила применимы в работе компании любого размера, дорожащей стабильностью качества своих услуг.

Читать далее

Просто ли открывается ларчик, Или как протестировать сразу более 10 сервисов

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.9K

Привет, Хабр! Всем известно, что у тестировщиков в жизни много трудностей. И мы, команда QA Департамента общих прикладных сервисов (ДОПС) Сбера, знаем об этом не понаслышке, так как тестируем релизы сервисов Platform V — цифровой облачной платформы СберТеха (более 70 продуктов для быстрого создания и легкого масштабирования приложений любой сложности). Да‑да, именно на Platform V Сбер совершил свою цифровую трансформацию!

Релизы поставляют в банк из СберТеха. Всё бы ничего, пришли изменения — тестируй. Но основная сложность заключается в том, что у платформы десятки продуктов, из‑за чего работа усложняется в разы.

Читать далее

Информация

В рейтинге
125-й
Работает в
Зарегистрирован
Активность