Pull to refresh
33
62
SberTeam @Sber

Пользователь

Send message

Российский нейроморфный процессор стал доступен для широкого использования. Что это значит?

Level of difficultyEasy
Reading time6 min
Views8.4K

Компания «Мотив НТ» из Новосибирска, которая разрабатывает системы технического зрения и аппаратные решения для их работы, выложила open-source код для создания, обучения и использования импульсных нейронных сетей. В основе разработки платформа KNP с программным пакетом и эмулятором нейроморфного процессора AltAI-1. Это позволяет разрабатывать и тестировать алгоритмы для работы на нейроморфном «железе».

Читать далее

Современные DDoS-атаки: чем они опасны для бизнеса

Level of difficultyEasy
Reading time8 min
Views2K

Частота DDoS-атак неуклонно растёт. Их количество в 2024 году в мире увеличилось на 108 % по сравнению с 2023 годом. Например, специалисты Центра мониторинга угроз в прошлом году отразили почти 11 тысяч DDoS-атак на российские организации. А самая длительная кибератака длилась более 108 часов. Ни одна компания не застрахована от потенциального ущерба, поэтому нужно знать как распознать DDoS-атаки и предотвратить их.

Читать далее

Генерация синтетических данных для LLM. Часть 2: графовый анализ

Level of difficultyHard
Reading time5 min
Views2K

Добрый день, уважаемый Хабр. Совсем немного времени прошло с первой публикации, но я уже спешу поделиться с вами своими наработками по тестированию «синтетических» данных и анализу их соответствия реальным данным. В прошлой части я кратко рассмотрел существующие методики применительно к генерации данных, также указал возможные предпосылки нарастающего тренда и самых значимых игроков на этом рынке, коих набралось уже немало. И, признаться сразу, качество их генераций заставляет уже призадуматься (например вот, вот и вот).

Здесь же мне захотелось сосредоточится исключительно на инструментальной части и предложить свой подход к анализу «синтетики». То есть посмотреть, как можно «развернуть» задачу, оптимизировав подход к ней более комплексно, так как уже поднадоело без конца «шить» лоскутное одеяло из множества тестов и метрик (Perplexity, BLEU, ROUGE, METEOR, BERTScore, GLUE, MMLU). Основной идеей было представление имеющихся данных через другие форматы, чтобы конвертировать и находить повторяющиеся паттерны, тренды, аналогии, элементы и возможные аномалии в данных. Ведь любой алгоритм, каким бы он сложным не был, не может выйти за пределы своей генерации, а следовательно, так или иначе будет создавать одни и те же «детектирующие» элементы.

Читать далее

Как LLM могут помочь аналитикам баз данных в работе с SQL-запросами

Level of difficultyHard
Reading time9 min
Views3.3K

В современных компаниях корпоративные хранилища данных (Data Warehouse) играют критически важную роль, обеспечивая централизованное хранение и обработку больших объёмов информации. Данные поступают из разнообразных источников: операционных систем, CRM, ERP, IoT-устройств, веб-аналитики, мобильных приложений и других платформ, отражая все аспекты деятельности организации. На основе этой информации компании формируют разного рода отчётность, отслеживают ключевые показатели эффективности (KPI), оптимизируют бизнес-процессы, прогнозируют рыночные тенденции и принимают стратегические решения.

Эффективная работа с хранилищем невозможна без участия бизнес- и системных аналитиков, которые проектируют структуры данных, очищают и объединяют информацию, адаптируя решения под меняющиеся задачи. С ростом объёмов данных и требований к скорости анализа даже опытные команды сталкиваются с вызовами. Рутинные операции — проектирование схем, поиск таблиц, проверка качества данных — требуют не только технических навыков, но и глубокого понимания бизнес-контекста. Большую часть времени занимает написание и оптимизация SQL-запросов, что становится «узким местом» в условиях динамично меняющихся требований.

Ошибки в SQL-запросах или недостаточное знание структуры данных приводит к потерям времени и снижению точности аналитики. Для решения этих проблем на помощь приходят технологии на основе больших языковых моделей (LLM), таких как GigaChat, GPT, BERT или DeepSeek. Обученные на исторических данных и журналах запросов, они способны автоматизировать подбор таблиц, JOIN-условий и шаблонов SQL. 

Читать далее

Зрение и его коррекция — не то, чем кажется

Level of difficultyEasy
Reading time7 min
Views19K

Привет, Хабр! Я — один из инженеров Сбера, и сегодня хочу поговорить с вами не о технологиях, которыми мы обычно делимся в корпоративном блоге, а о том, что волнует каждого айтишника, проводящего долгие часы за монитором — о зрении и способах его коррекции. И нет, это не очередной пост про то, как синий свет от монитора убивает наши глаза (хотя и убивает; вроде бы), и не про то, как сидеть ровно и моргать каждые 20 минут (хотя и нужно; но это не точно).

Читать далее

АйболИТ+: как в Сбере лечат технологические «болезни»

Level of difficultyEasy
Reading time3 min
Views956

Любая крупная компания сталкивается с «проблемами, упавшими между стульями» — так называют ситуации, когда рабочие задачи теряются среди множества подразделений и служб. Сотрудники не понимают, к кому обратиться за помощью, ответственность распределяется между командами, а стандартные подходы урегулирования малоэффективны.

Чтобы избежать подобного, в Сбере создали и развивают сервис АйболИТ+. Каждый день айтишники бигтеха работают над задачами с множеством зависимостей, в том числе в среде разработки, доступа к стендам, кибербезопасности, удалённой работы. Для простых случаев работает портал — оставляешь заявку и получаешь результат. А в нестандартных ситуациях как раз помогает АйболИТ+.

Читать далее

Отдыхаем от ИТ. Моделизм и раскрашивание

Level of difficultyEasy
Reading time14 min
Views3.8K

Привет, Хабр! В ИТ мы привыкли проводить большую часть дня в цифровом мире — кодинг, совещания, таски и проблемы пользователей. А как насчёт того, чтобы отдохнуть от всего этого, при этом не залипая перед монитором ещё на пару часов в игровой сессионке? Сегодня я хочу поделиться с вами своим опытом в области моделизма и прочего рукоделия — занятий, которые удивительным образом помогают мозгу переключиться и отдохнуть от бесконечных строк кода и рабочих задач. По крайней мере, моему уж точно. После работы за компьютером переход к созданию чего-то материального, что можно потрогать руками, иногда творит настоящие чудеса.

Читать далее

Генерация синтетических данных для LLM, или Как не «выстрелить» в ногу продакшену. Часть 1

Level of difficultyMedium
Reading time6 min
Views1.3K

Доброго вам дня, уважаемые Хабражители! В связи с бурным ростом LLM и просто невероятным, прорывными результатами практически ошеломительного качества, всё острее мы погружаемся в вопросы о дальнейшем развитии: «Куда двигаться дальше с точки зрения данных? Где их брать? Какого качества они должны быть? Как их бесшовно встроить в общую канву текущего конвейера? Сколько их вообще надо генерировать?» Всё это порождает массу тревог, размышлений и проводимых тестов. 

Поскольку мы уже вплотную подошли к тому, что данных начинает не хватать, надо заниматься их «разведением в домашних условиях». Ещё полгода назад прогноз был более оптимистичным, но стремительное развитии ИИ только «подлило масла в огонь». По факту, сейчас мы имеем ситуацию «взращивания» новой реальности и формирования целого многомерного мира вокруг любой технической задачи, любого формата и любой направленности. Более того, ставится вопрос, как сохранить исходные характеристики сырых данных и не подменить распределения и иные статистические параметры, дабы не уйти в сторону при обучении модели. Особенно это касается узкоспециализированных тем в широком социокультурном контексте. Говоря более общими словами, как генерировать «природные», а не «мусорные» данные? Более того, разгорающаяся ИИ-соперничество между США и Китаем принесёт много сюрпризов, гонка поднимется на новую высоту.  

Но обо всём по порядку. По традиции, всех заинтересованных любезно приглашаю под кат. Также приветствуются мнения, обсуждения и свежий взгляд ;) 

Читать далее

Пирамида Минто: как проводить онлайн-совещания и писать письма

Level of difficultyEasy
Reading time5 min
Views4.5K

Согласно одному из исследований, 86 % сотрудников и руководителей называют отсутствие эффективного взаимодействия основной причиной неудач на рабочем месте. Люди заняты и не хотят тратить время на длинные тексты или презентации, где главное сказано только в конце.

Напротив, команды с хорошей коммуникацией повышают свою продуктивность на 20–25 %. Пирамидальная структура речи помогает превратить поток мыслей в логически выстроенный текст. 

Читать далее

Искусственный интеллект в Agile

Level of difficultyEasy
Reading time6 min
Views2.2K

ИИ повышает эффективность Agile за счёт автоматизации задач, улучшения решений и оптимизации рабочих процессов. По прогнозам Gartner, в скором времени ИИ заменит 80 % ручного труда в управлении проектами, а это означает, что команды Agile смогут быстрее выявлять закономерности, прогнозировать проблемы и вносить коррективы в проекты.

Читать далее

Dagger 2 и жизненный цикл

Level of difficultyMedium
Reading time9 min
Views2.9K

Привет, меня зовут Владимир Феофилактов, я занимаюсь Android‑разработкой мобильного приложения СберБизнес. Я хотел бы поделиться с вами историей поиска ответа на вечный вопрос: «когда и как чистить граф зависимостей?».

У нас было приложение‑монолит с главным ComponentManager, где строился весь граф зависимостей. Файл был немаленький. Также во всех фрагментах необходимо было вручную создавать DI‑компонент и следить за его чисткой, а разработчики то и дело забывали про это или чистили неправильно.

Потом началась кампания по выносу фичёвого кода в отдельные модули. С каждым новым модулем всё чаще выстреливала циклическая зависимость, и приходилось писать обвязку (прокси‑класс). Главный ComponentManager оставался связующим звеном между фичёвыми модулями, через которое происходил переброс зависимостей, так что он всё ещё был большим и сложным. Иногда рефакторинг, связанный с перемещением кода из одного модуля в другой, вызывал многочасовую борьбу за нахождение пути решения проблемы «почему сборка никак не соберётся?». Иногда, чтобы доставить зависимость из одного модуля в другой, нужно было строить сложные конструкции, как при игре в «Твистер».

Вся эта увлекательная и мучительная игра продолжалась довольно долго, пока на помощь, как бы странно это ни звучало, не пришёл новомодный Compose. Тогда мы только начинали его осваивать, и я решил сделать небольшой pet‑проект, состоящий из двух экранов, с применением Compose для его изучения. Естественно, в этот проект подключил всё самое современное из библиотек, включая Dagger 2. Как обычно, немного повозившись с настройкой DI, в голове всплыла вся та боль, которую мы испытываем в нашем проекте.

Читать далее

ETL-потоки «VACUUM FULL», или Как учесть особенности жизненного цикла данных в условиях высоконагруженных хранилищ

Level of difficultyMedium
Reading time11 min
Views2.8K

Привет, Хабр! Наша команда работает в Сбере и отвечает за развитие аналитического хранилища данных (АХД), а также обеспечение финансово‑аналитической информацией ключевых подразделений. В нашем технологическом стеке используются Greenplum на основе PostgreSQL и Hadoop, что позволяет эффективно обрабатывать большие объёмы данных, гарантируя их надёжное хранение и своевременную доступность для потребителей.

В этой статье мы расскажем об использовании ETL-потоков AUTOVACUUM в наших СУБД.

Читать далее

Системное мышление в разработке программного обеспечения

Level of difficultyEasy
Reading time6 min
Views2.2K

Привет всем! Представьте себе проект, который всегда укладывается в сроки, где каждый модуль работает в гармонии с другими, а неожиданные баги встречаются крайне редко. Звучит как утопия? Возможно, но именно такую утопию нам обещает системное мышление. В разработке ПО, где каждый элемент может стать слабым звеном, системное мышление помогает увидеть всю картину и предугадывать проблемы до их возникновения. Используя его, разработчики не просто создают отдельные компоненты кода, но и понимают, как они взаимодействуют, влияют и зависят друг от друга. Это помогает обнаруживать коренные причины багов и узких мест, выявлять потенциальные риски и предотвращать проблемы.

В основе системного мышления — нескольких ключевых принципов, которые помогают разработчикам создавать эффективные и устойчивые системы. Рассмотрим их подробнее.

Читать далее

Как мы научились управлять метриками и почему это важно для продукта

Level of difficultyEasy
Reading time6 min
Views2.5K

Сегодня я хочу рассказать о метриках. Но не о тех, которые обычно обсуждают, к примеру, на конференциях, где каждый рассказывает о своём продукте. Я буду говорить о командных метриках и о нашей команде Sber Data Exchange.

Но сначала пару слов всё‑таки о продукте, чтобы задать контекст. Наш продукт специфический: это инструмент для обмена данными со Сбером и компаниями экосистемы. Представьте себе трубы, по которым данные движутся туда‑сюда. Вот этим мы и занимаемся.

Наша команда начинала разработку с нуля и преодолела долгий путь. Мы прошли через опытную эксплуатацию, пережили несколько миграций, наладили процессы и, наконец, вышли в зону стабильности. Продукт развивался, обрастал функциональностью, и всё шло хорошо. Но тут появились неожиданные вызовы, которые заставили нас пересмотреть подходы к работе и увеличить эффективность в разы.

Читать далее

Как быстро освоить кибербезопасность: советы для начинающих

Reading time6 min
Views12K

Привет! Эта статья предназначена для тех, кто хочет быстро освоить основы кибербезопасности, но не знает, с чего начать и куда двигаться. 

Читать далее

Автоматизировать управление инфраструктурой в облаке: почему мы решили разрабатывать свое решение

Level of difficultyEasy
Reading time7 min
Views2K

Привет, Хабр! Меня зовут Захар Пикуль, я руковожу в СберТехе отделом сопровождения инфраструктуры тестовых сред. Созданием и внедрением ИТ‑решений в компаниях различного размера и уровня я занимаюсь уже более 15 лет.

Облачные решения стали неотъемлемой частью жизни современной компании. А с ростом числа виртуальных машин, развёрнутых в облаке, возникает всё больше ситуаций, которые требуют комплексного подхода к управлению. Мы планируем цикл статей, в которых поделимся нашими текущими и перспективными наработками по решению этих задач, основанными на нашем видении и накопленном практическом опыте автоматизации взаимодействия с облачной инфраструктурой.

Эта статья — вводная. В ней мы разберём вызовы, с которыми может столкнуться компания в процессе переезда в облако, и возможные способы их решения.

Читать далее

Популярные инструменты для создания процессов DevOps

Level of difficultyEasy
Reading time8 min
Views8.6K

Всем привет! Специально для тех, кто хочет освоить эту профессию, мы подготовили обзор основных инструментов, необходимых для создания DevOps-процессов.

Читать далее

AI DataChat — помощник, который говорит с тобой на одном языке

Level of difficultyEasy
Reading time12 min
Views3.8K

Мы — команда, которая обеспечивает D‑People (data‑аналитиков, исследователей данных (data scientist) и data‑инженеров) Сбера удобными и функциональными инструментами для работы с данными. Наш департамент развивает внутреннюю корпоративную аналитическую платформу (КАП). В ней есть множество удобных инструментов, и в статье мы расскажем об одном из них — позволяющем работать с данными на естественном языке.

Читать далее

Динамический промптинг, или RAG наоборот

Level of difficultyMedium
Reading time8 min
Views4.4K

Привет! На связи снова команда LegalDocs правового департамента ПАО «Сбербанк». В прошлый раз мы рассказали вам о конструкторе извлечения для аналитиков, а сегодня хотим поделиться с вами, как мы сделали «RAG наоборот» — выработали методику автоматизации рутинных задач аналитиков.

Читать далее

Меньше ресурсов при большей нагрузке: как мы создали простой инструмент нагрузочного тестирования

Reading time7 min
Views4.4K

Всем привет, меня зовут Максим Ажгирей, я руковожу в СберТехе командой разработки, которая занимается развитием инструмента нагрузочного тестирования (НТ) SyTester в линейке интеграционных решений Platform V Synapse.

У SyTester есть две редакции: Enterprise Edition (EE) и Community Edition (CE). Вторая — бесплатная, мы сделали её совсем недавно и разместили на GitVerse, то есть протестировать её может любой желающий. Сегодня расскажу о том, какие проблемы мы смогли решить благодаря этому инструменту, а также об особенностях каждой его версии. Статья будет полезна разработчикам, которым нужно быстро, не тратя время на сложные настройки, провести нагрузочное тестирование, а также специалистам, которым требуется тестировать приложения с очень большими нагрузками (от 100 000 ТПС) и для различных протоколов.

Читать далее
1
23 ...

Information

Rating
130-th
Works in
Registered
Activity