Pull to refresh
16K+
42
SberTeam@Sber

Хабр, я люблю тебя!

21
Rating
426
Subscribers
Send message

Сказ о том, как «беспокойные» данные набеспокоили нам скор

Level of difficultyHard
Reading time5 min
Reach and readers7.1K

Привет, уважаемые Хаброжители ;-) Сегодня мы поговорим о данных, которые представляют собой весьма специфичный случай, а именно о «шумных» данных. Предлагаю вам поразмыслить на тему обратного инжиниринга применительно к таким данным и попытаться поставить всё с ног на голову. О чем речь: не так давно мы написали модель машинного обучения по предсказанию одного тренда и пытались улучшить ее предсказания, применяя различные модификации фильтра Калмана (Kalman Filter, EnKF, Kalman Filter + Numba (Just-in-Time), EnKF + Numba (Just-in-Time)). Другими словами, фильтровали обучающую и тестовую выборку в надежде поднять скор на модели, выделив более качественный сигнал. При этом получили, в целом, весьма хорошее решение. И тут мы начали размышлять: «Так, пааажди… Мы же просто учились всегда на отфильтрованных данных, почему ускорение кода даёт нам поднятие скора на модели, и более того, более качественную балансировку предсказания для наших классов?» Если вам интересно, что у нас получилось, то приглашаю под кат.

Читать далее

Генерация синтетических данных для LLM. Часть 4: теоремы

Level of difficultyHard
Reading time7 min
Reach and readers7.4K

Добрый день, уважаемые хабражители! Как и прежде меня зовут Владимир Миронов, и я занимаюсь тестированием и оценкой синтетических данных ;) Добрались, наконец-то, до четвёртой части в этом цикле статей из (прошлые статьи можно увидеть тут, тут и тут). В этот раз разберём важный момент, связанный с анализом полученных матриц смежностей по нашим графам и представлением их свойств с позиции оптимизации и унификации. В общем, поговорим про алгоритмы, обсудим чисто технические моменты и подходы к унификации данных. 

Всё идёт к тому, что интерпретируемое машинное обучение набирает всё больше оборотов, и необходима не только его визуализация, но и новые доказательные выкладки, и понимание границ формирования данных. Сформулирую несколько вопросов: 

Читать далее

AI Native Science: наука в эпоху ИИ-трансформации

Level of difficultyEasy
Reading time5 min
Reach and readers6.2K

Искусственный интеллект меняет ландшафт научных открытий и значительно ускоряет исследования. Современные системы могут изучать литературу, строить гипотезы и генерировать экспертные статьи — для этого достаточно ввести пару промтов.   

Привет, Хабр! Меня зовут Алексей Шпильман, я лидер центра «AI для науки» в Сбербанке. В этой статье я расскажу, как AI повлиял на научную среду, какие ИИ-решения сегодня актуальны и какое будущее ждет AI Native Science. 

Читать далее

Интуиция или расчёт — стратегии успешных инвесторов

Level of difficultyEasy
Reading time7 min
Reach and readers8.1K

Инвестиции всегда считались занятием рискованным. На неудачных вложениях погорело немало людей, некоторые разорились. Что же нужно, чтобы этого не произошло? Играет ли роль интуиция, или все удачные инвестиции — результат лишь спокойного и трезвого анализа? 

Как считают сами инвесторы? Признают ли они ценность интуитивного восприятия при решении инвестировать?

Читать далее

Записки с медицинской ИИ-фабрики

Level of difficultyEasy
Reading time9 min
Reach and readers6.7K

Мы обучаем медицине большую языковую модель GigaChat и создаём агентов для здравоохранения на её основе. Наша модель уже сдала множество экзаменов и даже устроилась на работу. Как и в других сферах ИИ, в медицине мы делаем то, что раньше было фантастикой, а теперь быстро входит в практику. Давайте я вам об этом расскажу.

Читать далее

Генерация синтетических данных для LLM. Часть 3: случайные матрицы

Level of difficultyMedium
Reading time4 min
Reach and readers5.1K

Добрый день, уважаемые Хабровчане :) Продолжаем наши научные изыскания в области определения «синтетических» данных. В этой статье я рассмотрю тему анализа графов с позиции анализа спектров матрицы смежности для случайных матриц. То есть мы зайдём со стороны оптимизации знаний из прошлых двух статей (раз и два) и посмотрим, как применить теорию случайных матриц к нашей исходной задаче. Основная цель — расширение диапазона исследуемых значений. 

Итак, погнали, значицо ;)

Читать далее

Почему компании выходят из облака?

Reading time8 min
Reach and readers17K

Привет, Хабр! Почему некоторые компании возвращаются к локальной инфраструктуре, оставляя публичное облако в прошлом? Казалось бы, облачные технологии — это будущее, но растущая тенденция обратной миграции доказывает обратное.

В этой статье мы расскажем вам, что движет этим процессом и какие выгоды он может принести бизнесу.

В 2019 году аналитики Gartner посчитали, что случаи выхода из публичного облака были скорее исключением, чем массовой практикой. А вот в июле 2024 года AWS решили, что этот тренд усиливается, особенно среди компаний, которые хотят усилить контроль над данными, снизить расходы и повысить кибербезопасность. Решение о миграции часто зависит от характера рабочих нагрузок и индивидуальных потребностей бизнеса.

Давайте разберём самые распространённые причины отказа от публичных облаков.

Читать далее

Продвинутые техники RAG в действии

Level of difficultyMedium
Reading time15 min
Reach and readers20K

Всем привет! Представьте таблицу с сотнями или даже тысячами атрибутов. Как в условиях высокой размерности найти релевантные данные по запросу на естественном языке? Классические методы часто не справляются, нужны новые подходы.

Именно за эту сложную задачу взялась команда Департамента управления данными (SberData) в рамках эффективной интеграции ИИ‑агентов в Корпоративную аналитическую платформу Сбера (КАП), которая объединяет современные инструменты для работы с данными: хранение, интеграция, аналитика, моделирование и контроль качества данных. Наличие таких технологий, как продвинутые LLM (например, GigaChat), и большие объёмы данных делают исследование подобных задач актуальным для рынка больших данных.

В статье мы сравним эффективность векторного поиска, гибридных методов и подхода Retrieval‑Augmented Generation (RAG), оценим их влияние на точность результатов и обсудим практические ограничения.

Читать далее

Вёрстка не поехала: как тестировать интерфейсы без боли

Level of difficultyEasy
Reading time11 min
Reach and readers11K

Привет, Хабр!

Мы — Алевтина Чугунова (владелец продукта дизайн‑системы) и Дарья Каткова (QA‑инженер). В этой статье расскажем, как создаём и тестируем дизайн‑систему, с какими проблемами сталкивались и какие инструменты разработали, чтобы упростить жизнь себе и командам.

Вы узнаете:

— Что такое дизайн‑система и зачем она нужна.

— Как тестировать интерфейсы без боли.

— Какие инструменты помогают автоматизировать проверки.

Читать далее

AI Labyrinth от Cloudflare: как генеративный ИИ стал оружием против ботов-скрейперов

Level of difficultyEasy
Reading time6 min
Reach and readers11K

С развитием генеративного ИИ боты-скрейперы стали умнее и настойчивее. Они обходят традиционные методы защиты и массово сканируют сайты, собирая данные для обучения своих моделей. Ежедневно в сети Cloudflare фиксируется более 50 миллиардов запросов от ИИ-краулеров — это почти 1% всего интернет-трафика.

Компания предложила новое решение проблемы — AI Labyrinth. Вместо прямого блокирования инструмент дезориентирует ботов, заставляя их тратить время и ресурсы на обработку бесполезного контента.

Читать далее

Композитная архитектура: гибкий подход к разработке ПО

Level of difficultyEasy
Reading time6 min
Reach and readers13K

Современные приложения часто требуют гибкости, масштабируемости и быстрой адаптации к изменениям. Традиционные монолитные системы могут не справляться с этими задачами, поэтому всё чаще приложения собирают из независимых и слабосвязанных компонентов.

Композитная архитектура — это подход к проектированию ПО, при котором приложение строится из набора слабосвязанных, независимо разрабатываемых, развёртываемых и масштабируемых компонентов. Эти компоненты взаимодействуют только через чётко определённые интерфейсы (чаще всего API).

Читать далее

Отечественные Open Source-инструменты для ИИ-разработки

Level of difficultyEasy
Reading time6 min
Reach and readers16K

Open Source — подход к созданию программного обеспечения, при котором исходный код программы делается доступным для всех. Это означает, что любой человек может использовать программу, изучать ее, изменять под свои нужды и делиться этими изменениями с другими.

В контексте искусственного интеллекта Open Source-инструменты включают библиотеки, фреймворки, датасеты, модели и платформы, которые помогают разработчикам создавать, обучать и тестировать ИИ-системы.

Читать далее

Обзор платформы M2M от СберМобайла

Level of difficultyEasy
Reading time5 min
Reach and readers6.5K

M2M (Machine-to-Machine) — технология автоматизированного обмена данными между устройствами по сотовой сети. Она используется в системах, где требуется непрерывный контроль и передача информации без участия человека: в датчиках, терминалах, счётчиках, банкоматах и других IoT-устройствах.

Рассказываем, где эта технология используется и каковы её возможности.

Читать далее

Как успешно пережить периоды пиковой нагрузки во время трансформации

Level of difficultyEasy
Reading time4 min
Reach and readers1.8K

Вы когда-нибудь задумывались о том, что чем больше мы зависим от технологий, тем быстрее стремится к нулю наша снисходительность к сбоям и неработоспособности этих технологий? Я, например, почти сразу «начинаю нервничать», хотя считаю себя уравновешенным. Особенно неприятно, когда сбои случаются в самый неподходящий момент.

Меня зовут Вячеслав Кудряшов, я исполнительный директор Mission Control Center в Сбере. Предлагаю порассуждать о том, что такое «неподходящий момент» и как бороться со сбоями в этот период.

Читать далее

Использование машинного обучения для оптимизации логистических процессов

Level of difficultyMedium
Reading time6 min
Reach and readers4.7K

Привет! Сегодня в логистике мы сталкиваемся с множеством вызовов, требующих новых подходов. Глобализация, большие объёмы данных, изменчивость потребительских настроений и стремление к экономии делают традиционные способы управления недостаточно эффективными. Поэтому машинное обучение оказывается как никогда кстати и становится важным инструментом для оптимизации логистических процессов.

Традиционная организация цепочек поставок часто сталкивается с проблемами. Например, прогнозирование и планирование могут быть некорректными из-за отсутствия своевременных и точных данных. Для координации участников цепочек поставок требуются значительные, но не всегда оправданные ресурсы. Непредсказуемые обстоятельства, такие как погодные условия или колебания спроса, тоже могут приводить к сбоям. Работа вручную также повышает вероятность ошибок (человеческий фактор, куда ж без него) и снижает общую эффективность.

Читать далее

Почему растёт спрос на гиперконвергентные системы

Level of difficultyMedium
Reading time6 min
Reach and readers4K

Спрос на локальное оборудование для центров обработки данных снижается по мере того, как организации переносят рабочие нагрузки в облако. Но локальные решения не исчезли, и одним из востребованных сегментов является гиперконвергентная инфраструктура (HCI).

Читать далее

На пути к эмоциональному искусственному интеллекту

Level of difficultyMedium
Reading time7 min
Reach and readers4.4K

Привет, Хабр. Меня зовут Андрей Савченко, я научный директор Sber AI Lab. Когда речь заходит про эмоциональность и принятие решений у ИИ, нужно задать себе вопрос: «А как это устроено у людей?» Наверняка почти каждый из вас ответил бы, что он принимает решение рационально, а остальные, зачастую, иррационально. 

Нейропсихологи проводили исследования и выяснили, что большинство решений люди принимают эмоционально. С одной стороны, это экономит ресурсы мозга, а с другой — позволяет быстрее принимать решения. И поэтому очень важно учитывать нашу эмоциональность при взаимодействии с другими и при создании имитации людей или сообществ с помощью современных генеративных моделей. Условно это можно назвать эмоциональным искусственным интеллектом.

Читать далее

Google I/O 2025: Gemini, Google Beam, умные очки и другие ключевые анонсы

Level of difficultyEasy
Reading time6 min
Reach and readers4K

В мае этого года прошла конференция Google I/O 2025, где компания представила целый ряд технологических новинок и обновлений своих флагманских продуктов. В этой статье подробно пройдёмся по ключевым анонсам мероприятия.

Читать далее

Зачем прыгать в бассейн… преджунов?

Level of difficultyEasy
Reading time7 min
Reach and readers13K

Привет, Хабр! Меня зовут Стас, я курирую HR-вопросы в ДИТ «Сеть продаж». Мы отвечаем за физические каналы взаимодействия с клиентами: сеть отделений банка, банкоматы, выездные специалисты прямых продаж, доставка финансовых документов и многое другое. В нашем ИТ-департаменте работает более 1000 человек. Мы нанимаем много инженеров разного уровня. Причём берём не только специалистов, но и даём шанс пока не очень квалифицированным, но очень мотивированным ребятам. Это у нас называется «бассейном».

Читать далее

Тайная жизнь домашних V8: как движок JavaScript оптимизирует твой код

Level of difficultyMedium
Reading time10 min
Reach and readers11K

Всем привет. Меня зовут Виктор Степанов, я frontend chapter lead на платформе СберТеха GitVerse. Хочу рассказать про внутреннюю «механику» V8 и показать, как писать более быстрый код. Поехали!

Читать далее

Information

Rating
392-nd
Works in
Registered
Activity